# MTH3302 : Méthodes probabilistes et statistiques pour l'I.A.

Jonathan Jalbert<br/>
Professeur agrégé au Département de mathématiques et de génie industriel<br/>
Polytechnique Montréal<br/>


---
# Projet H2024 : Prédiction du prix de vente des embarcations de plaisance


Le développement d'un modèle statistique pour prédire le prix de vente des embarcations de plaisance serait très utile tant pour les acheteurs que pour les vendeurs. Un tel modèle pourrait fournir des indications sur les facteurs influençant les prix des embarcations, englobant des variables telles que le type, l'âge, les dimensions, l'état, la localisation géographique, les tendances du marché, etc. En exploitant les données historiques de vente et les techniques statistiques vues dans le cours, le modèle pourrait offrir des estimations de prix précises, aidant ainsi les vendeurs à fixer des tarifs compétitifs et les acheteurs à prendre des décisions d'achat éclairées. De plus, cet outil prédictif pourrait contribuer à la transparence du marché, facilitant les transactions et favorisant la confiance entre les acheteurs et les vendeurs.

Vous avez accès à une vaste banque de données concernant le prix de vente des embarcations entre les années 2003 et 2019 sur le site BoatTrader.com. L'ensemble d'entraînement est constitué de 12 000 embarcations pour lesquelles le prix de vente est connu. Vous aurez à développer un modèle statisique permettant la prédcition du prix de vente des 3000 embarcations de l'ensemble de test. 

**But** : Prédire le prix de vente des bateaux de l'ensemble de test en fonction de leurs caractéristiques.

**Objectifs spécifiques non exhaustifs**
1. Effectuer une analyse exploratoire des données afin d'extraire qualitativement certains les potentiels liens entre les variables.
2. Élaborer plusieurs modèles prédictifs pour le prix de vente en fonction des caractéristiques fournies.
3. Sélectionner le meilleur modèle prédicitif à l'aide d'un critère choisi.
4. Exploiter le modèle choisi pour effectuer vos prédictions.

Ces étapes peuvent être recommencées autant de fois que nécessaire afin d'obtenir le meilleur modèle prédictif possible.

La description du projet est disponible à l'adresse suivante :
https://www.kaggle.com/t/4e9e19596de34658865880b2511fd073


Ce calepin Jupyter de base permet de charger les données fournies. La dernière section détaille la génération du fichier des prédictions afin de le soumettre sur Kaggle dans le bon format.

### Données

Dans un premier temps, vous devrez récupérer les données sur Kaggle ou sur le répertoire GitHub du cours. Les fichiers disponibles sont les suivants :
- train.csv
- test.csv

**Déposez ces fichiers dans le répertoire de ce calepin.**

Le fichier *train.csv* contient les caractéristiques et les prix de vente de 12000 bateaux affichés sur le site BoatTrader.com. Voici la description des caractérisiques fournies :

- ID : identifiant
- Type : type de l'embarcation
- Classe : classe de l'embarcation
- Fabricant
- Modèle
- Année : année de fabrication
- Condition : embarcation neuve ou usagée
- Longueur : longueur de l'embarcation en pieds
- Largeur : largeur de l'embarcation en pieds
- Poids : poids de l'embarcation en lbs
- Materiau : matériau de la coque
- Carburant : type de carburant utilisé
- Nombre_Moteurs
- Puissance_Moteur : puissance des moteur en HP
- Type_Moteur
- État : état des USA où l'embarcation est en vente
- Mois_Vente : mois de la mise en vente
- Année_Vente : année de la mise en vente
- Prix : prix de vente en USD

Le fichier *test.csv* contient les caractérisiques de 3000 embarcations 2023 mais pas les prix de vente correspondans. Vous devez prédire le prix de vente pour chacune de ces embarcations. Le fichier contient aussi l'identifiant (:ID) pour les prédictions. La qualité de vos prédictions sera ensuite évaluée avec le [*Root Mean Squared Log Error*](https://www.kaggle.com/code/carlolepelaars/understanding-the-metric-rmsle) lorsque vous les téléverserez sur Kaggle. Vos prédictions seront comparées à celles des autres équipes de la classe.


### Consignes

- Vous devez constituer une équipe de 3 à 5 personnes.
- Au moins une solution doit être proposée sur Kaggle.
- Utilisez votre identifiant d'équipe pour téléverser vos prédictions sur Kaggle.
- Un seul calepin *.ipynb* par équipe doit être remis. Ce fichier devra documenter et illustrer la procédure qui vous a permis de produire vos meilleures prédictions. Ce fichier constitue le rapport final du projet.
- Le langage Julia doit être utilisé.
- Votre démarche doit être rigoureusement justifiée (consultez la grille de correction pour vous orienter).

### Quelques conseils

Votre calepin doit **permettre à une personne à l'extérieur de l'équipe de comprendre votre démarche et de reproduire vos résultats**. Par exemple, une bonne façon de faire consiste à expliquer dans une cellule de texte la tâche qui est accomplie dans la cellule de code suivante. 

Je vous encourage fortement à faire une **analyse exploratoire** des données pour développer une meilleure expertise sur le problème. C'est une étape qui est toujours négligée mais qui est essentielle. C'est avec l'analyse exploratoire que vous viendra des idées d'amélioration, comme par exemple créer de nouvelles variables explicatives.

Vous pouvez utiliser directement tout ce qui se trouve dans les notes de cours sans explication et toutes les librairies utilisées dans le cours (incluant mes fonctions).

Ce calepin contient un modèle très simple de prédiction : on n'utilise qu'une seule variable explicative. Ce sera votre travail d'**améliorer ces prédictions** avec la méthode et les variables de votre choix.

S'il y a des **données manquantes**, ce sera à vous de traiter ce problème. Vous devriez développer une méthode d'imputation (de remplacement) des données manquantes.

**Attention aux données aberrantes**. Elles peuvent faire dérailler tous le modèle prédictif si elle ne sont pas prises en compte.

Prenez la peine de **documenter succinctement les essais infructueux**. Ce n'est pas nécessaire de les expliquer en détails, mais c'est important de les mentionner dans la discussion avec une raison possible de leur échec. De cette façon, une personne qui reprendra votre travail dans le futur ne perdra pas de temps à réessayer une méthode infructueuse déjà testée.

Vous pouvez aussi indiquer dans votre rapport les raisons qui vous font croire pourquoi une méthode a moins bien performée de ce qui était attendu. Vous pouvez également mentionner ce que vous auriez pu tenter si vous aviez eu plus de temps ou plus de données. L'idée est de guider l'analyste qui prendrait la relève de votre travail.

Vous êtes **limités à deux soumissions par jour et par équipe sur Kaggle**. Je vous suggère donc de bien tester vos modèles localement et de ne téléverser que vos meilleurs prédictions de la journée.

In [None]:
import Pkg; Pkg.add("StatsPlots")

In [None]:
using CSV, DataFrames, Dates, Gadfly, GLM, Statistics, Plots, StatsPlots

---
## 1. Chargement de données

In [None]:
train = CSV.read("data/train.csv", DataFrame)
first(train, 5)

---
## 2. Analyse exploratoire

Cette section consitue une analyse exploratoire superficielle permettant de se familiariser avec les données. C'est une analyse exploratoire sommaire. Je vous encourage fortement à poursuivre cette analyse.

In [None]:
describe(train)

Cette analyse générale sur le dataset des données nous permet notamment de voir les colonnes pour lesquelles nous n'avons pas toutes les données
En effet, Modèle/Largeur/Poids/Carburant/Puissance_Moteur/Type_Moteur ont des Union avec Missing en Type ce qui montre que pour certaines lignes nous n'avons pas les informations de ces colonnes

Maintenant nous nous intéressons à savoir le nombre de valeurs possibles pour les différentes colonnes

In [None]:
println("Taille train : $(nrow(train))")
println("Nombre de types différents : $(length(unique(train.Type)))")
println("Nombre de classes différents : $(length(unique(train.Classe)))")
println("Nombre de fabriquant différents : $(length(unique(train.Fabricant)))")
println("Nombre de modèles différents : $(length(unique(train.Modèle)))")
println("Nombre de années différents : $(length(unique(train.Année)))")
println("Nombre de condition différents : $(length(unique(train.Condition)))")
println("Nombre de matériau différents : $(length(unique(train.Materiau)))")
println("Nombre de carburants différents : $(length(unique(train.Carburant)))")
println("Nombre de type de moteur différents : $(length(unique(train.Type_Moteur)))")
println("Nombre de état différents : $(length(unique(train.État)))")

Nous souhaitons désormais savoir le nombre de 'Missing' pour les différentes colonnes

In [None]:
train_without_missing_poids = dropmissing(train, :Poids)
println("Nombre de missing poids : $(nrow(train)-nrow(train_without_missing_poids))")

train_without_missing_largeur = dropmissing(train, :Largeur)
println("Nombre de missing largeur : $(nrow(train)-nrow(train_without_missing_largeur))")

train_without_missing_modele = dropmissing(train, :Modèle)
println("Nombre de missing modele : $(nrow(train)-nrow(train_without_missing_modele))")

train_without_missing_carburant = dropmissing(train, :Carburant)
println("Nombre de missing carburant : $(nrow(train)-nrow(train_without_missing_carburant))")

train_without_missing_Puissance_Moteur = dropmissing(train, :Puissance_Moteur)
println("Nombre de missing puissance moteur : $(nrow(train)-nrow(train_without_missing_Puissance_Moteur))")

train_without_missing_Type_Moteur = dropmissing(train, :Type_Moteur)
println("Nombre de missing type moteur : $(nrow(train)-nrow(train_without_missing_Type_Moteur))")


On remarque que le nombre de missing des colonnes Poids, Largeur, Puissance_Moteur, Type_Moteur sont importants
Par contre pour les colonnes Modèle et Carburant ils sont moins importants
Étant donné le grand nombre de données dans le dataset, nous prenons la décision de retirer les lignes pour lesquelles nous avons des 'Missing' pour Modèle et/ou Carburant, considérant que le nombre de lignes perdues est négligeable

In [None]:
train = dropmissing(train, [:Modèle, :Carburant])

Nous refaisons une analyse du nombre de 'Missing' des autres colonnes car il pourrait réduire, en effet, il se pourrait que toutes les lignes qui avaient des 'Missing' pour Modèle et/ou Carburant avaient des 'Missing' aussi pour les autres colonnes

In [None]:
println("Nombre restants : $(nrow(train))")

train_without_missing_poids = dropmissing(train, :Poids)
println("Nombre de missing poids : $(nrow(train)-nrow(train_without_missing_poids))")

train_without_missing_largeur = dropmissing(train, :Largeur)
println("Nombre de missing largeur : $(nrow(train)-nrow(train_without_missing_largeur))")

train_without_missing_Puissance_Moteur = dropmissing(train, :Puissance_Moteur)
println("Nombre de missing puissance moteur : $(nrow(train)-nrow(train_without_missing_Puissance_Moteur))")

train_without_missing_Type_Moteur = dropmissing(train, :Type_Moteur)
println("Nombre de missing type moteur : $(nrow(train)-nrow(train_without_missing_Type_Moteur))")


Effectivement, nous remarquons que le nombre de 'Missing' des différentes colonnes a diminué
On peut supposer que dans la création du dataset, lorsqu'il manquait une information sur une vente d'embarcation, il y avait généralement plusieures informations manquantes

#### 2.2 Analyse des distributions des colonnes numériques

Analyse de la colonne de Prix

In [None]:
histogram(train.Prix, bins=50, title="Distribution des Prix", xlabel="Prix", ylabel="Nombre", legend=false)

In [None]:
boxplot(["Prix"], train.Prix, title="Boxplot des Prix", ylabel="Prix", legend=false)


Grâce aux deux graphiques précédents, on remarque une grande concentration des prix dans une zone, avec une présence d'outliers dans des prix très élevés.
Nous décidons donc de retirer du jeux d'entrainement les prix supérieurs à 1000000

In [None]:
filtered_train = filter(row -> row.Prix <= 1000000, train)

println("Nombre de lignes avant suppression des outliers : $(nrow(train))")
println("Nombre de lignes après suppression des outliers : $(nrow(filtered_train))")


Analyse de la colonne de Longeur

In [None]:
histogram(filtered_train.Longueur, bins=50, title="Distribution des Longuerus", xlabel="Longueur", ylabel="Nombre", legend=false)

In [None]:
boxplot(["Longueur"], filtered_train.Longueur, title="Boxplot des Longueur", ylabel="Longueur", legend=false)


Même chose que pour la colonne Prix, nous remarquons une grande concentration des longeurs entre 0 et 50 puis certaines longueurs au dela
Nous décidons donc de retirer les longueurs supérieures à 150

In [None]:
println("Nombre de lignes avant suppression des outliers : $(nrow(filtered_train))")

filtered_train = filter(row -> row.Longueur <= 150, filtered_train)

println("Nombre de lignes après suppression des outliers : $(nrow(filtered_train))")


Analyse de la colonne Largeur

In [None]:
histogram(filtered_train.Largeur, bins=50, title="Distribution des Largeur", xlabel="Largeur", ylabel="Nombre", legend=false)

In [None]:
without_missing_largeur = dropmissing(filtered_train, :Largeur)
boxplot(["Largeur"], without_missing_largeur.Largeur, title="Boxplot des Largeur", ylabel="Largeur", legend=false)


Sur les deux graphiques précédents nous remarquons, qu'il existe 4 outliers qui ont des largeurs de +800 alors que la majorité de nos largeurs ne dépassent pas 200, nous les retirons du jeux de données

In [None]:
println("Nombre de lignes avant suppression des outliers : $(nrow(filtered_train))")

filtered_train = filter(row -> ismissing(row.Largeur) || row.Largeur <= 200, filtered_train)

println("Nombre de lignes après suppression des outliers : $(nrow(filtered_train))")


Analyse de la colonne Poids

In [None]:
histogram(filtered_train.Poids, bins=50, title="Distribution des Poids", xlabel="Poids", ylabel="Nombre", legend=false)

In [None]:
without_missing_poids = dropmissing(filtered_train, :Poids)
boxplot(["Poids"], without_missing_poids.Poids, title="Boxplot des poids", ylabel="Poids", legend=false)


Nous remarquons la présence de outliers et décidons de prendre la valeur 2.00x10^4 comme valeur threshold

In [None]:
println("Nombre de lignes avant suppression des outliers : $(nrow(filtered_train))")

filtered_train = filter(row -> ismissing(row.Poids) || row.Poids <= 20000, filtered_train)

println("Nombre de lignes après suppression des outliers : $(nrow(filtered_train))")


### Estimation des coefficients des parametres de la regression lineaire simple pour les variables continues
Dans cette section, nous allons explorer les données pour mieux comprendre les relations entre les variables et identifier les tendances et les caractéristiques importantes qui pourraient être utiles pour la modélisation.
Puisque nous avons beaucoup de valeurs manquantes pour certaines variables continues, nous utiliserons uniquement les données disponibles pour leur analyse

#### Prix en fonction des variables explicatives continues

In [None]:
target = [:Prix]
categorical_features = [:Type, :Classe, :Fabricant, :Modèle, :Condition, :Materiau, :Carburant, :Type_Moteur, :État]
continuous_features = [:Année, :Longueur, :Largeur, :Poids, :Nombre_Moteurs, :Puissance_Moteur, :Mois_Vente, :Année_Vente]  
categorical_train_data = train[:,append!(categorical_features, target)] 
continuous_train_data = train[:,append!(continuous_features, target)]                                           

In [None]:
using DataFrames
function drop_missing_values(X, y)
    valid_indices = .!ismissing.(X) .& .!ismissing.(y)
    X_clean, y_clean = X[valid_indices], y[valid_indices]
    return DataFrame(X = X_clean, Y = y_clean)
end

In [None]:
using Gadfly

function plot_trend(data, title)
    # Plot using Gadfly
    Plots.plot(data, x=:X, y=:Y, Geom.point, Guide.title(title))
end


In [None]:
for feature in names(continuous_train_data)
    # Generate and display the plot
    # Create a DataFrame suitable for plotting
    plot_data = drop_missing_values(continuous_train_data[:, feature], continuous_train_data.Prix)
    p = plot_trend(plot_data, "Tendance de $(feature) vs Prix")
    display(p)  # Explicitly display the plot
end

#### Estimation des parametres de la regression lineaire simple pour les variables continues

In [None]:
function regression_analysis(data)
    x₁ = data[!, :X]
    y = data[!, :Y]
    n = length(y)
    # Calcul des statistiques utiles
    n = length(y)
    x̄₁ = mean(x₁)
    ȳ = mean(y)

    # Calcul des coefficients de régression (pente et ordonnée à l'origine)
    β̂₁ = sum((x₁[i] - x̄₁)*(y[i] - ȳ)  for i=1:n) / sum( (x₁[i] - x̄₁)^2 for i=1:n)
    β̂₀ = ȳ - β̂₁*x̄₁

    # Affichage des coefficients de régression
    println("β̂₀ = $β̂₀")
    println("β̂₁ = $β̂₁")

    set_default_plot_size(11cm, 8cm)
    p = Plots.plot(data, x=:X, y=:Y, Geom.point, intercept = [β̂₀], slope = [β̂₁], Geom.abline(color="red", style=:dash))
    
    display(p)

    ŷ = β̂₀ .+ β̂₁*x₁
    e = y - ŷ

    SST = sum( (y[i] - ȳ)^2 for i=1:n )  # variabilité totale
    SSE = sum( e.^2 )

    R² = 1 - SSE/SST

    println("R² = $R²")
end

In [None]:
feature = names(continuous_train_data)[1]
# Generate and display the plot
# Create a DataFrame suitable for plotting
plot_data = drop_missing_values(continuous_train_data[:, feature], continuous_train_data.Prix)
println("Analyse de régression pour $(feature)")
regression_analysis(plot_data)

In [None]:
feature = names(continuous_train_data)[2]
# Generate and display the plot
# Create a DataFrame suitable for plotting
plot_data = drop_missing_values(continuous_train_data[:, feature], continuous_train_data.Prix)
println("Analyse de régression pour $(feature)")
regression_analysis(plot_data)

In [None]:
feature = names(continuous_train_data)[3]
# Generate and display the plot
# Create a DataFrame suitable for plotting
plot_data = drop_missing_values(continuous_train_data[:, feature], continuous_train_data.Prix)
println("Analyse de régression pour $(feature)")
regression_analysis(plot_data)

In [None]:
feature = names(continuous_train_data)[4]
# Generate and display the plot
# Create a DataFrame suitable for plotting
plot_data = drop_missing_values(continuous_train_data[:, feature], continuous_train_data.Prix)
println("Analyse de régression pour $(feature)")
regression_analysis(plot_data)

In [None]:
feature = names(continuous_train_data)[5]
# Generate and display the plot
# Create a DataFrame suitable for plotting
plot_data = drop_missing_values(continuous_train_data[:, feature], continuous_train_data.Prix)
println("Analyse de régression pour $(feature)")
regression_analysis(plot_data)

In [None]:
feature = names(continuous_train_data)[6]
# Generate and display the plot
# Create a DataFrame suitable for plotting
plot_data = drop_missing_values(continuous_train_data[:, feature], continuous_train_data.Prix)
println("Analyse de régression pour $(feature)")
regression_analysis(plot_data)

In [None]:
feature = names(continuous_train_data)[7]
# Generate and display the plot
# Create a DataFrame suitable for plotting
plot_data = drop_missing_values(continuous_train_data[:, feature], continuous_train_data.Prix)
println("Analyse de régression pour $(feature)")
regression_analysis(plot_data)

In [None]:
feature = names(continuous_train_data)[8]
# Generate and display the plot
# Create a DataFrame suitable for plotting
plot_data = drop_missing_values(continuous_train_data[:, feature], continuous_train_data.Prix)
println("Analyse de régression pour $(feature)")
regression_analysis(plot_data)

Pour interpréter ces résultats de régression, nous allons examiner les coefficients (β̂₀ et β̂₁), ainsi que le coefficient de détermination (R²) pour chaque analyse. Chaque analyse correspond à une variable dépendante différente.

### Régression pour Année
- **β̂₀ (intercept) = 262237.56**: Lorsque l'année est égale à 0, la variable dépendante est estimée à 262237.56. Cela n'est généralement pas interprétable directement si "Année" est une année réelle (comme 2020, etc.).
- **β̂₁ (pente) = -96.78**: Pour chaque augmentation d'une unité dans l'année, la variable dépendante diminue de 96.78. Cela suggère une tendance décroissante par rapport à l'année.
- **R² = 0.0000546**: Ce modèle explique seulement 0.00546% de la variance de la variable dépendante, ce qui indique un modèle très faiblement informatif.

### Régression pour Longueur
- **β̂₀ = -16006.27**
- **β̂₁ = 3400.33**: Pour chaque unité augmentée en longueur, la variable dépendante augmente de 3400.33.
- **R² = 0.1327**: Ce modèle explique environ 13.27% de la variance, ce qui est meilleur que le premier mais reste modeste.

### Régression pour Largeur
- **β̂₀ = 80214.65**
- **β̂₁ = 41.66**
- **R² = 0.0000841**: Explication de la variance très faible, indiquant un modèle peu utile.

### Régression pour Poids
- **β̂₀ = 30904.22**
- **β̂₁ = 7.65**: Une augmentation d'une unité de poids correspond à une augmentation de 7.65 dans la variable dépendante.
- **R² = 0.4854**: Près de 48.54% de la variance est expliquée, ce qui en fait un modèle relativement fort.

### Régression pour Nombre_Moteurs
- **β̂₀ = -66150.67**
- **β̂₁ = 123244.83**
- **R² = 0.1490**: Explication modeste de la variance.

### Régression pour Puissance_Moteur
- **β̂₀ = -28736.55**
- **β̂₁ = 368.01**: Chaque augmentation unitaire de la puissance du moteur augmente la variable dépendante de 368.01.
- **R² = 0.5056**: Plus de la moitié de la variance est expliquée, ce qui est un bon résultat pour ce modèle.

### Régression pour Mois_Vente
- **β̂₀ = 78946.28**
- **β̂₁ = -1634.70**: Une diminution avec chaque mois supplémentaire.
- **R² = 0.0011**: Modèle très faiblement explicatif.

### Régression pour Année_Vente
- **β̂₀ = 2.9013671e7**
- **β̂₁ = -14340.23**
- **R² = 0.0125**: Encore une fois, un faible niveau d'explication.

En général, les modèles pour "Poids" et "Puissance_Moteur" sont relativement plus performants comparativement aux autres modèles qui montrent peu ou pas de capacité prédictive avec de très faibles valeurs de R².

---
## 3. Ajustement d'un modèle de régression linéaire

Pour cet exemple simple, on n'utilise que le type d'embarcation pour prédire le prix de vente.

#### 3.1. Ajustement du modèle de régression linéaire

## Test pas à pas

In [None]:
using GLM

explanatory_variables = [:Type, :Classe, :Fabricant, :Modèle, :Année, :Condition, :Longueur, :Largeur, :Poids, :Materiau, 
                         :Carburant, :Nombre_Moteurs, :Puissance_Moteur, :Type_Moteur, :État, :Mois_Vente, :Année_Vente]

rsquared_values = []

for var in explanatory_variables
    formula = @eval @formula(Prix ~ $var)
    model = lm(formula, filtered_train)
    rsquared = r2(model)
    push!(rsquared_values, (var, rsquared))
end

for (var, rsquared) in rsquared_values
    println("$(var): $(rsquared)")
end

In [None]:
# Creation d'un ensemble d'entrainement et de validation, l'ensemble d'entrainement contient au moins 1 fois chaque modele unique
using Distributions
using Statistics
using Random

Random.seed!(3302)

ntrain = round(Int, 0.8 * nrow(filtered_train))

unique_modeles = unique(filtered_train[:, "Modèle"])

unique_indexes = Int[]

for modele in unique_modeles
    index = findfirst(x -> x == modele, filtered_train[:, "Modèle"])
    push!(unique_indexes, index)
end

rows_to_exclude = unique_indexes
sampling_range = setdiff(1:nrow(filtered_train), rows_to_exclude)

train_id = sample(sampling_range, ntrain - length(unique_indexes), replace=false, ordered=true)
train_id = vcat(unique_indexes, train_id)
valid_id = setdiff(1:nrow(filtered_train), train_id)

train_pas = filtered_train[train_id, :]
valid_pas = filtered_train[valid_id, :]

println(nrow(train_pas))
println(nrow(valid_pas))

In [None]:
using StatsModels

model_modele = lm(@formula(Prix ~ 0 + Modèle), train_pas) # modele sans ordonnee a l'origine

# model_modele = lm(@formula(Prix ~ Modèle), train_pas)
# model_modele = lm(term("Prix") ~ term("Modèle"), train_pas)

modele_names = coefnames(model_modele)
modele_coeffs = coef(model_modele)

for i in 1:length(modele_names)
    modele_names[i] = strip(split(modele_names[i], ":")[2])
end

In [None]:
println(size(modele_names))
println(size(unique_modeles))

println(first(modele_names, 5))

unique_names = sort(unique_modeles)
println(first(unique_names, 5))

# le modele "10" aurait ete l'ordonnee a l'origine

In [None]:
println(modele_coeffs)

Les valeurs correspondent à celles trouvées avec les notions du cours:

In [None]:
n = Int(nobs(model_modele))
c = size(modele_names, 1)

# X = hcat(ones(n), zeros(n, c-1))
X = zeros(n, c)
for i in 1:size(X, 1)
    index = findfirst(x -> x == train_pas.Modèle[i], modele_names)
    if !isa(index, Int)
        continue
    end
    X[i, index] = 1
end

y = train_pas.Prix
β̂ = X\y

println(size(X))
println(β̂ )

# index = findfirst(x -> x == filtered_train.Modèle[8758], model_names)
# println(filtered_train.Modèle[8758])
# print(index)

In [None]:
r_squared = r2(model_modele)
println("Le R² courrant est : $r_squared")

In [None]:
function rmsle(y_true::Array, y_pred::Array)
    log_true = log.(y_true .+ 1)
    log_pred = log.(y_pred .+ 1)
    squared_diffs = (log_pred .- log_true) .^ 2
    mean_squared_log_error = mean(squared_diffs)
    return sqrt(mean_squared_log_error)
end

In [None]:
predictions = predict(model_modele, valid_pas)
predictions = coalesce.(predictions, 0)
predictions = max.(predictions, 0)
predictions = min.(predictions, 1000000)
rmsle_model = rmsle(valid_pas.Prix, predictions)

println("Le RMSLE courrant est : $rmsle_model")

first(predictions, 5)

Les valeurs correspondent à celles trouvées avec les notions du cours:

In [None]:
# Xpred = Matrix(valid_pas[:, Not(:Prix)])

n_valid = size(valid_pas, 1)
c = size(modele_names, 1)

Xpred = zeros(n_valid, c)
for i in 1:size(Xpred, 1)
    index = findfirst(x -> x == valid_pas.Modèle[i], modele_names)
    if !isa(index, Int)
        continue
    end
    Xpred[i, index] = 1
end

predictions = Xpred * β̂ 
predictions = coalesce.(predictions, 0)
predictions = max.(predictions, 0)
predictions = min.(predictions, 1000000)
rmsle_model = rmsle(valid_pas.Prix, predictions)

println("Le RMSLE courrant est : $rmsle_model")

first(predictions, 5)

In [None]:
function plot_predictions(predictions, real_price)
    df = DataFrame(predictions=predictions, real_price=real_price)
    sort!(df, [:predictions])
    range = 1:length(predictions)
    Plots.plot(range, df.real_price[range], seriestype=:scatter, color=:red, label="vérité")
    Plots.plot!(range, df.predictions[range], seriestype=:scatter, color=:blue, label="prédiction")
    Plots.ylabel!("prix")
end

In [None]:
plot_predictions(predictions, valid_pas.Prix)

In [None]:
# model = lm(@formula(Prix ~ Modèle+Type+Classe+Fabricant+Année+Condition+Longueur+Largeur+Poids+Materiau+ 
#                          Carburant+Nombre_Moteurs+Puissance_Moteur+Type_Moteur+État+Mois_Vente+Année_Vente), filtered_train)

# model = lm(@formula(Prix ~ Modèle+Année+Condition+Longueur+Carburant+Nombre_Moteurs+Mois_Vente+Année_Vente), filtered_train)

model = lm(@formula(Prix ~ Année+Condition+Longueur+Nombre_Moteurs+Mois_Vente+Année_Vente), filtered_train)

cn2 = coefnames(model)
coef_estimates = coef(model)
# println(last(cn2, length(coef_estimates)-length(modele_names)+1))
println(cn2)

std_errors = stderror(model)
z_scores = coef_estimates ./ std_errors
# println(last(z_scores, length(coef_estimates)-length(modele_names)+1))
println(z_scores)

println(size(coef_estimates))
println(size(z_scores))

predictions = predict(model, valid_pas)
predictions = coalesce.(predictions, 0)
predictions = max.(predictions, 0)
predictions = min.(predictions, 1000000)
rmsle_model = rmsle(valid_pas.Prix, predictions)

println("Le RMSLE courrant est : $rmsle_model")

r_squared = r2(model)
println("Le R² courrant est : $r_squared")

plot_predictions(predictions, valid_pas.Prix)

In [None]:
model_classe = lm(@formula(Prix ~ Classe), train_pas)

predictions = predict(model_classe, valid_pas)
predictions = coalesce.(predictions, 0)
predictions = max.(predictions, 0)
predictions = min.(predictions, 1000000)
rmsle_model = rmsle(valid_pas.Prix, predictions)

println("Le RMSLE courrant est : $rmsle_model")

first(predictions, 5)

In [None]:
# on utilise tous les donnees maintenant

model_modele = lm(@formula(Prix ~ 0 + Modèle), filtered_train)
model_classe = lm(@formula(Prix ~ 0 + Classe), filtered_train)
model3 = lm(@formula(Prix ~ Année+Condition+Longueur+Nombre_Moteurs+Mois_Vente+Année_Vente), filtered_train)

In [None]:
classe_names = coefnames(model_classe)

for i in 1:length(classe_names)
    classe_names[i] = strip(split(classe_names[i], ":")[2])
end

In [None]:
test = CSV.read("data/test.csv", DataFrame)

missing_modeles = []
for i in eachindex(test.Modèle)
    if ismissing(test.Modèle[i]) || !(test.Modèle[i] in modele_names)
        push!(missing_modeles, i)
        test.Modèle[i] = "10" # on remplace le modele par un placeholder juste pour l'instant
    end
end

missing_classes = []
for i in eachindex(test.Classe)
    if ismissing(test.Classe[i]) || !(test.Classe[i] in classe_names)
        push!(missing_classes, i)
        test.Classe[i] = "power-airboat" # on remplace la classe par un placeholder juste pour l'instant
    end
end

predictions = predict(model_modele, test)
pred2 = predict(model_classe, test)

for index in missing_modeles
    predictions[index] = pred2[index]
end

missing_both = intersect(missing_modeles, missing_classes)
pred3 = predict(model3, test)

for index in missing_both
    predictions[index] = pred3[index]
end

predictions = coalesce.(predictions, 0)
predictions = max.(predictions, 0)
predictions = min.(predictions, 1000000)

---
## 4. Estimation du prix de vente de l'ensemble de test

On utilise le modèle simple de la section précédente pour le nombre de passages pour chacune des embarcations de l'ensemble de test.

#### 4.1 Chargement des données de l'ensemble de test

#### 4.2 Prédictions

#### 4.4 Préparation du fichier des préditions pour téléverser sur Kaggle

Le fichier *benchmark_predictions.csv* généré peut être téléversé sur Kaggle. Il est composé d'une colonne d'identifiants (:ID) et d'une colonne de la prédiction (:Prix).

In [None]:
benchmark_predictions = DataFrame(ID = test.ID, Prix=predictions)
first(benchmark_predictions, 5)

In [None]:
CSV.write("benchmark_predictions.csv", benchmark_predictions)