# Prédiction de la consommation en carburant de voitures récentes.


### Rouler cette cellule pour installer les packages necessaires

In [89]:
using Pkg

Pkg.add([
    "CSV",                # Pour charger les fichiers CSV
    "DataFrames",         # Pour utiliser la structure DataFrame pour stocker les données
    "Distributions",      # Pour utiliser les lois de probabilités classiques
    "Gadfly",             # Pour tracer des graphiques
    "Statistics",         # Pour les fonctions statistiques de base
    "MLJ",                # Pour le machine learning
    "CategoricalArrays",  # Pour manipuler les données catégorielles
    "StatsBase"           # Pour les fonctions statistiques avancées
])

[32m[1m   Resolving[22m[39m package versions...
[32m[1m    Updating[22m[39m `C:\Users\Dimi\.julia\environments\v1.10\Project.toml`
  [90m[324d7699] [39m[92m+ CategoricalArrays v0.10.8[39m
[33m⌅[39m [90m[2913bbd2] [39m[92m+ StatsBase v0.33.21[39m
  [90m[10745b16] [39m[92m+ Statistics v1.10.0[39m
[32m[1m  No Changes[22m[39m to `C:\Users\Dimi\.julia\environments\v1.10\Manifest.toml`


### Importation de librairies

In [90]:
using CSV              # Pour charger les fichiers CSV
using DataFrames       # Pour utiliser la structure DataFrame pour stocker les données
using Distributions    # Pour utiliser les lois de probabilités classiques
using Gadfly           # Pour tracer des graphiques
using Statistics       # Pour les functions statistiques de base
using MLJ
using CategoricalArrays
using StatsBase

### Chargement des données train et test

In [92]:
train_data = CSV.read("train.csv", DataFrame);
test_data = CSV.read("test.csv", DataFrame);

In [93]:
first(train_data, 10)

Row,annee,type,nombre_cylindres,cylindree,transmission,boite,consommation
Unnamed: 0_level_1,Int64,String31,Int64,String3,String15,String15,String31
1,2023,voiture_moyenne,8,44,integrale,automatique,138358823529412
2,2020,VUS_petit,4,2,integrale,automatique,980041666666667
3,2021,voiture_compacte,6,33,propulsion,automatique,117605
4,2023,voiture_deux_places,8,5,integrale,automatique,130672222222222
5,2022,voiture_moyenne,8,44,integrale,automatique,138358823529412
6,2022,voiture_moyenne,8,44,integrale,automatique,138358823529412
7,2022,voiture_minicompacte,3,15,traction,automatique,73503125
8,2024,voiture_minicompacte,3,15,traction,manuelle,758741935483871
9,2020,VUS_standard,6,38,integrale,automatique,112004761904762
10,2019,voiture_compacte,6,33,propulsion,automatique,117605


In [94]:
first(test_data, 10)

Row,annee,type,nombre_cylindres,cylindree,transmission,boite
Unnamed: 0_level_1,Int64,String31,Int64,String3,String15,String15
1,2014,voiture_moyenne,4,25,traction,manuelle
2,2014,voiture_moyenne,4,25,traction,automatique
3,2014,VUS_petit,4,25,traction,automatique
4,2014,VUS_petit,4,2,4x4,automatique
5,2014,voiture_sous_compacte,8,58,propulsion,manuelle
6,2014,voiture_sous_compacte,8,5,propulsion,automatique
7,2014,voiture_sous_compacte,8,5,propulsion,manuelle
8,2014,VUS_petit,4,24,4x4,automatique
9,2014,VUS_petit,6,35,integrale,automatique
10,2014,voiture_deux_places,10,52,integrale,manuelle


In [95]:
# Transformer les colonnes supposer etre numeric de String en Float pour les données train et test
train_data.cylindree = parse.(Float64, replace.(train_data.cylindree, "," => "."));
train_data.consommation = parse.(Float64, replace.(train_data.consommation, "," => "."));
test_data.cylindree = parse.(Float64, replace.(test_data.cylindree, "," => "."));

In [96]:
# categorical est utilisé pour encoder les variables catégorielles afin de les utiliser dans les modèles
train_data.type = categorical(train_data.type);
train_data.transmission = categorical(train_data.transmission);
train_data.boite = categorical(train_data.boite);

test_data.type = categorical(test_data.type);
test_data.transmission = categorical(test_data.transmission);
test_data.boite = categorical(test_data.boite);

In [97]:
first(train_data, 10)

Row,annee,type,nombre_cylindres,cylindree,transmission,boite,consommation
Unnamed: 0_level_1,Int64,Cat…,Int64,Float64,Cat…,Cat…,Float64
1,2023,voiture_moyenne,8,4.4,integrale,automatique,13.8359
2,2020,VUS_petit,4,2.0,integrale,automatique,9.80042
3,2021,voiture_compacte,6,3.3,propulsion,automatique,11.7605
4,2023,voiture_deux_places,8,5.0,integrale,automatique,13.0672
5,2022,voiture_moyenne,8,4.4,integrale,automatique,13.8359
6,2022,voiture_moyenne,8,4.4,integrale,automatique,13.8359
7,2022,voiture_minicompacte,3,1.5,traction,automatique,7.35031
8,2024,voiture_minicompacte,3,1.5,traction,manuelle,7.58742
9,2020,VUS_standard,6,3.8,integrale,automatique,11.2005
10,2019,voiture_compacte,6,3.3,propulsion,automatique,11.7605


In [98]:
first(test_data, 10)

Row,annee,type,nombre_cylindres,cylindree,transmission,boite
Unnamed: 0_level_1,Int64,Cat…,Int64,Float64,Cat…,Cat…
1,2014,voiture_moyenne,4,2.5,traction,manuelle
2,2014,voiture_moyenne,4,2.5,traction,automatique
3,2014,VUS_petit,4,2.5,traction,automatique
4,2014,VUS_petit,4,2.0,4x4,automatique
5,2014,voiture_sous_compacte,8,5.8,propulsion,manuelle
6,2014,voiture_sous_compacte,8,5.0,propulsion,automatique
7,2014,voiture_sous_compacte,8,5.0,propulsion,manuelle
8,2014,VUS_petit,4,2.4,4x4,automatique
9,2014,VUS_petit,6,3.5,integrale,automatique
10,2014,voiture_deux_places,10,5.2,integrale,manuelle
