In [1]:
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import preprocessing
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler

%matplotlib inline


In [None]:
## Chargement des données

In [2]:
df = pd.read_csv("../../data/processed/lieu-compteur-one-hot-encoded.csv", index_col = 0)
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1204344 entries, 57773 to 1039253
Data columns (total 76 columns):
 #   Column                                                                 Non-Null Count    Dtype
---  ------                                                                 --------------    -----
 0   Jour                                                                   1204344 non-null  int64
 1   Mois                                                                   1204344 non-null  int64
 2   Année                                                                  1204344 non-null  int64
 3   Heure                                                                  1204344 non-null  int64
 4   Jour_semaine                                                           1204344 non-null  int64
 5   Jour férié                                                             1204344 non-null  int64
 6   Vacances scolaires                                                     1204344 non-

In [None]:
## Processing variables catégorielles

In [3]:
y = df["Comptage horaire"]
X = df.drop(columns=["Comptage horaire"])

col_norm = ["Jour", "Mois", "Année", "Heure", "Jour_semaine", "Jour férié", "Vacances scolaires"]
encoder = preprocessing.OneHotEncoder(sparse_output=False, dtype=int) 

array = encoder.fit_transform(X[col_norm])

encoded_df_clean = pd.DataFrame(array, columns=encoder.get_feature_names_out(col_norm))

encoded_df_clean.index = X.index

X_clean = pd.concat([X.drop(columns=col_norm), encoded_df_clean], axis=1)

In [4]:
X_clean.head()

Unnamed: 0,Nom du site de comptage_10 avenue de la Grande Armée,Nom du site de comptage_10 boulevard Auguste Blanqui,Nom du site de comptage_102 boulevard de Magenta,Nom du site de comptage_106 avenue Denfert Rochereau,Nom du site de comptage_129 rue Lecourbe,Nom du site de comptage_132 rue Lecourbe,Nom du site de comptage_135 avenue Daumesnil,Nom du site de comptage_147 avenue d'Italie,Nom du site de comptage_152 boulevard du Montparnasse,Nom du site de comptage_16 avenue de la Porte des Ternes,Nom du site de comptage_163 boulevard Brune,Nom du site de comptage_18 quai de l'Hôtel de Ville,Nom du site de comptage_180 avenue d'Italie,Nom du site de comptage_21 boulevard Auguste Blanqui,Nom du site de comptage_24 boulevard Jourdan,Nom du site de comptage_243 boulevard Saint Germain,Nom du site de comptage_27 boulevard Davout,Nom du site de comptage_27 boulevard Diderot,Nom du site de comptage_27 quai de la Tournelle,Nom du site de comptage_28 boulevard Diderot,Nom du site de comptage_30 rue Saint Jacques,Nom du site de comptage_33 avenue des Champs Elysées,Nom du site de comptage_35 boulevard de Ménilmontant,Nom du site de comptage_36 quai de Grenelle,Nom du site de comptage_38 rue Turbigo,Nom du site de comptage_39 quai François Mauriac,Nom du site de comptage_42 boulevard Soult,Nom du site de comptage_44 avenue des Champs Elysées,Nom du site de comptage_51 boulevard du Général Martial Valin,Nom du site de comptage_56 boulevard Kellermann,Nom du site de comptage_6 rue Julia Bartet,Nom du site de comptage_67 boulevard Voltaire,Nom du site de comptage_7 avenue de la Grande Armée,Nom du site de comptage_72 avenue de Flandre,Nom du site de comptage_72 boulevard Brune,Nom du site de comptage_72 boulevard Richard Lenoir,Nom du site de comptage_72 boulevard Voltaire,Nom du site de comptage_77 boulevard Masséna,Nom du site de comptage_77 boulevard Richard Lenoir,Nom du site de comptage_81 boulevard Mortier,...,Mois_11,Mois_12,Année_2023,Année_2024,Année_2025,Heure_0,Heure_1,Heure_2,Heure_3,Heure_4,Heure_5,Heure_6,Heure_7,Heure_8,Heure_9,Heure_10,Heure_11,Heure_12,Heure_13,Heure_14,Heure_15,Heure_16,Heure_17,Heure_18,Heure_19,Heure_20,Heure_21,Heure_22,Heure_23,Jour_semaine_1,Jour_semaine_2,Jour_semaine_3,Jour_semaine_4,Jour_semaine_5,Jour_semaine_6,Jour_semaine_7,Jour férié_0,Jour férié_1,Vacances scolaires_0,Vacances scolaires_1
57773,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,1,0
1092998,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,0,1
1171485,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,0,0,0,0,0,1,0,1,0
57487,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,1,0
57812,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,1,0


In [None]:
## Séparation données d'entrainement et de test

In [5]:
X_train, X_test, y_train, y_test = train_test_split(X_clean, y, test_size=0.2, random_state=42)

In [None]:
## Entrainement du modèle

In [6]:
clf = LinearRegression()
clf.fit(X_train, y_train)
print("train score", clf.score(X_train, y_train))
print("test score", clf.score(X_test, y_test))

train score 0.5939158529774999
test score 0.5900886613201042


In [7]:
from sklearn.metrics import root_mean_squared_error

In [8]:
y_pred = clf.predict(X_test)
print(root_mean_squared_error(y_test, y_pred))

102.21355356947552
