The objective of this project is indicated in the website:  
"Egis contribue à l’exploitation du contrôle du stationnement sur voirie pour plusieurs villes, en France et à l’international.
Des véhicules équipés de caméras prennent des photos des véhicules stationnés.
Puis, à partir du numéro de la plaque, de la géolocalisation et de l’horodatage, un processus est initié pour contrôler la validité du stationnement et aller jusqu’à l’émission d’un forfait post stationnement si nécessaire. 
Nous sommes convaincus que l’analyse de ces données permettrait d’optimiser l’activité d’exploitation d’une part et permettrait de réduire le taux d’infraction constaté.
Nous suggérons donc de mettre au point un modèle de Machine Learning dans le but d’Identifier les zones / horaires où il y a le plus d’infractions et optimiser les trajets des véhicules de contrôle du stationnement en conséquence."

# Import Libraries

In [5]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from scipy.stats import spearmanr

In [6]:
# Split datasets into features (X) and target (y)
X_train = pd.read_csv('x_train_final_asAbTs5.csv', sep=',', header=0, encoding='utf-8')
y_train = pd.read_csv('y_train_final_YYyFil7.csv', sep=',', header=0, encoding='utf-8')
X_test = pd.read_csv('x_test_final_fIrnA7Q.csv', sep=',', header=0, encoding='utf-8')

# Handling of Na values
There are Na values for the HauteurNeige and the ForceVent parameters. These need to be filtered.

In [13]:
print(X_train.head(100).to_string(index=False))
# print(X_test.isnull().sum())
# print(y_train.isnull().sum())

 Unnamed: 0  total_count  longitude_scaled  latitude_scaled  Precipitations  HauteurNeige  Temperature  ForceVent  day_of_week  month_of_year  hour
     556784            9          0.999048         0.996619             1.2           0.0         14.5        5.1            5             12    13
    5040344            2          0.999180         0.996764             0.0           0.0         23.0        2.6            5              1    12
    1147476            1          0.999015         0.995753             0.0           0.0          2.7        2.1            6              8     9
    1909249            5          0.998371         0.996096             0.0           0.0          5.5        3.6            2              6    10
    3947872            1          0.999070         0.996565             0.0           0.0         18.5        3.4            4              8    15
    2416669            1          0.999063         0.995738             0.0           0.0         19.4        1.

In [None]:
# Handle missing or invalid values
X_train = X_train.replace([np.inf, -np.inf], np.nan).dropna()
y_train = y_train.replace([np.inf, -np.inf], np.nan).dropna()
X_test = X_test.replace([np.inf, -np.inf], np.nan).dropna()

# Ensure alignment between X_train and y_train after dropping rows
X_train, y_train = X_train.align(y_train, join='inner', axis=0)

In [None]:
# Split training data into training and validation sets
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2, random_state=42)


In [None]:
# Train RandomForest model
model = RandomForestRegressor(random_state=42)
model.fit(X_train, y_train.values)  # Flatten y_train if it's a single column

In [None]:
# Predict on test set
y_pred = model.predict(X_test)

In [None]:
# Evaluate using Spearman correlation
# Assuming you have the actual target values for the test set (y_test)
# Replace 'y_test_actual.csv' with the actual file containing test set targets
y_test = pd.read_csv('y_test_actual.csv', sep=',', header=0, encoding='utf-8')
y_test = y_test.replace([np.inf, -np.inf], np.nan).dropna()


In [None]:
# Ensure alignment between y_test and y_pred
y_test = y_test.iloc[:len(y_pred)]
spearman_corr, _ = spearmanr(y_test.values, y_pred)

print(f"Spearman Correlation: {spearman_corr}")
