In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import preprocessing
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler, LabelEncoder

%matplotlib inline

In [None]:
## Chargement des données de modélisation

In [2]:
df = pd.read_csv("../../data/processed/compteur-classes-one-hot-encoded.csv", index_col = 0)
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1797907 entries, 12886 to 708012
Columns: 109 entries, Jour to Comptage horaire
dtypes: int64(108), object(1)
memory usage: 1.5+ GB


In [None]:
## Processing variables catégorielles

In [3]:
y = df["Comptage horaire"]
X = df.drop(columns=["Comptage horaire"])

col_norm = ["Jour", "Mois", "Année", "Heure", "Jour_semaine", "Jour férié", "Vacances scolaires"]
encoder = preprocessing.OneHotEncoder(sparse_output=False, dtype=int) 

array = encoder.fit_transform(X[col_norm])

encoded_df_clean = pd.DataFrame(array, columns=encoder.get_feature_names_out(col_norm))

encoded_df_clean.index = X.index

X_clean = pd.concat([X.drop(columns=col_norm), encoded_df_clean], axis=1)

In [4]:
X_clean.head()

Unnamed: 0,Nom du compteur_10 avenue de la Grande Armée SE-NO,Nom du compteur_10 boulevard Auguste Blanqui NE-SO,Nom du compteur_102 boulevard de Magenta SE-NO,Nom du compteur_106 avenue Denfert Rochereau NE-SO,Nom du compteur_129 rue Lecourbe SO-NE,Nom du compteur_132 rue Lecourbe NE-SO,Nom du compteur_135 avenue Daumesnil SE-NO,Nom du compteur_147 avenue d'Italie S-N,Nom du compteur_152 boulevard du Montparnasse E-O,Nom du compteur_152 boulevard du Montparnasse O-E,Nom du compteur_16 avenue de la Porte des Ternes E-O,Nom du compteur_163 boulevard Brune SE-NO,Nom du compteur_18 quai de l'Hôtel de Ville NO-SE,Nom du compteur_18 quai de l'Hôtel de Ville SE-NO,Nom du compteur_180 avenue d'Italie N-S,Nom du compteur_21 boulevard Auguste Blanqui SO-NE,Nom du compteur_24 boulevard Jourdan E-O,Nom du compteur_243 boulevard Saint Germain NO-SE,Nom du compteur_27 boulevard Davout N-S,Nom du compteur_27 boulevard Diderot E-O,Nom du compteur_27 quai de la Tournelle NO-SE,Nom du compteur_27 quai de la Tournelle SE-NO,Nom du compteur_28 boulevard Diderot E-O,Nom du compteur_28 boulevard Diderot O-E,Nom du compteur_30 rue Saint Jacques N-S,Nom du compteur_33 avenue des Champs Elysées NO-SE,Nom du compteur_35 boulevard de Ménilmontant NO-SE,Nom du compteur_36 quai de Grenelle NE-SO,Nom du compteur_36 quai de Grenelle SO-NE,Nom du compteur_38 rue Turbigo NE-SO,Nom du compteur_38 rue Turbigo SO-NE,Nom du compteur_39 quai François Mauriac NO-SE,Nom du compteur_39 quai François Mauriac SE-NO,Nom du compteur_42 boulevard Soult N-S,Nom du compteur_42 boulevard Soult S-N,Nom du compteur_44 avenue des Champs Elysées SE-NO,Nom du compteur_51 boulevard du Général Martial Valin SE-NO,Nom du compteur_56 boulevard Kellermann E-O,Nom du compteur_6 rue Julia Bartet NE-SO,Nom du compteur_6 rue Julia Bartet SO-NE,...,Mois_11,Mois_12,Année_2023,Année_2024,Année_2025,Heure_0,Heure_1,Heure_2,Heure_3,Heure_4,Heure_5,Heure_6,Heure_7,Heure_8,Heure_9,Heure_10,Heure_11,Heure_12,Heure_13,Heure_14,Heure_15,Heure_16,Heure_17,Heure_18,Heure_19,Heure_20,Heure_21,Heure_22,Heure_23,Jour_semaine_1,Jour_semaine_2,Jour_semaine_3,Jour_semaine_4,Jour_semaine_5,Jour_semaine_6,Jour_semaine_7,Jour férié_0,Jour férié_1,Vacances scolaires_0,Vacances scolaires_1
12886,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,1,0
685401,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,0,0,1
667057,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,0,0,0,0,0,1,0,1,0
12622,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,1,0
12680,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,1,0


In [None]:
## Encodage variable cible

In [5]:
label_enc = LabelEncoder()
y = label_enc.fit_transform(y)

In [6]:
y

array([4, 4, 4, ..., 0, 0, 0])

In [None]:
## Séparation datasets d'entrainement et de test

In [7]:
X_train, X_test, y_train, y_test = train_test_split(X_clean, y, test_size=0.2, random_state=42)

In [9]:
params = {
    'C': [0.1, 1, 10],
    'kernel': ['rbf', 'poly'],
    'gamma': [0.001, 0.1, 0.5, 'scale'],
}

In [None]:
# Entrainement du modèle (ne finit pas)

In [None]:
svc = SVC(cache_size=300, kernel='poly', gamma=0.5, C=1, degree=3)
# clf = GridSearchCV(svc, params, scoring='accuracy', n_jobs=-1, verbose=2)
svc.fit(X_train, y_train)
#print("best params", clf.best_params_)
#print("best score", clf.best_score_)
print("train score", clf.score(X_train, y_train))
print("test score", clf.score(X_test, y_test))