In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# Carica i dati
data = pd.read_csv("ChargingStationCleaned.csv", encoding='utf-8')

# Aggiungi una colonna con l'anno di costruzione
data['year'] = pd.to_datetime(data['commissioning_date']).dt.year

# Seleziona le colonne di interesse
data = data[['year', 'federal_state', 'latitude_[dg]', 'longitude_[dg]']]

# Effettua il one-hot encoding per la colonna 'federal_state'
data = pd.get_dummies(data, columns=['federal_state'])

# Preparazione dei dati per l'addestramento e il test
X = data.drop(['latitude_[dg]', 'longitude_[dg]'], axis=1)
y_lat = data['latitude_[dg]']
y_lon = data['longitude_[dg]']
X_train, X_test, y_lat_train, y_lat_test, y_lon_train, y_lon_test = train_test_split(X, y_lat, y_lon, test_size=0.2, random_state=42)

# Addestra i modelli
rf_model_lat = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model_lat.fit(X_train, y_lat_train)

rf_model_lon = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model_lon.fit(X_train, y_lon_train)

knn_model_lat = KNeighborsRegressor(n_neighbors=5)
knn_model_lat.fit(X_train, y_lat_train)

knn_model_lon = KNeighborsRegressor(n_neighbors=5)
knn_model_lon.fit(X_train, y_lon_train)

# Valuta le prestazioni dei modelli
y_lat_pred_rf = rf_model_lat.predict(X_test)
y_lon_pred_rf = rf_model_lon.predict(X_test)
y_lat_pred_knn = knn_model_lat.predict(X_test)
y_lon_pred_knn = knn_model_lon.predict(X_test)

print("Random Forest:")
print("Mean Absolute Error (latitude):", mean_absolute_error(y_lat_test, y_lat_pred_rf))
print("Mean Absolute Error (longitude):", mean_absolute_error(y_lon_test, y_lon_pred_rf))
print("Mean Squared Error (latitude):", mean_squared_error(y_lat_test, y_lat_pred_rf))
print("Mean Squared Error (longitude):", mean_squared_error(y_lon_test, y_lon_pred_rf))
print("R2 Score (latitude):", r2_score(y_lat_test, y_lat_pred_rf))
print("R2 Score (longitude):", r2_score(y_lon_test, y_lon_pred_rf))

print("\nKNN:")
print("Mean Absolute Error (latitude):", mean_absolute_error(y_lat_test, y_lat_pred_knn))
print("Mean Absolute Error (longitude):", mean_absolute_error(y_lon_test, y_lon_pred_knn))
print("Mean Squared Error (latitude):", mean_squared_error(y_lat_test, y_lat_pred_knn))
print("Mean Squared Error (longitude):", mean_squared_error(y_lon_test, y_lon_pred_knn))
print("R2 Score (latitude):", r2_score(y_lat_test, y_lat_pred_knn))
print("R2 Score (longitude):", r2_score(y_lon_test, y_lon_pred_knn))


Random Forest:
Mean Absolute Error (latitude): 0.37663254490112025
Mean Absolute Error (longitude): 0.5502161487759689
Mean Squared Error (latitude): 0.2563670005786467
Mean Squared Error (longitude): 0.5383117756832672
R2 Score (latitude): 0.9212114893512979
R2 Score (longitude): 0.8672744673010049

KNN:
Mean Absolute Error (latitude): 0.41116049667664345
Mean Absolute Error (longitude): 0.6030016489431309
Mean Squared Error (latitude): 0.30722534513252225
Mean Squared Error (longitude): 0.6483955293958245
R2 Score (latitude): 0.9055813450175341
R2 Score (longitude): 0.8401323435113872


In [3]:
# Grazie per aver condiviso l'output. Ora possiamo confrontare le prestazioni dei due modelli, RandomForestRegressor (RF) e KNeighborsRegressor (KNN), 
# basandoci sui seguenti parametri: Mean Absolute Error (MAE), Mean Squared Error (MSE) e R2 Score.

# Per entrambe le latitudine e longitudine:

# Mean Absolute Error (MAE): RF ha un errore medio assoluto inferiore rispetto a KNN. Ciò significa che, in media, 
# le previsioni di RF sono più vicine ai valori reali rispetto a quelle di KNN.

# Mean Squared Error (MSE): Anche qui, RF ha un errore quadratico medio inferiore rispetto a KNN. MSE enfatizza gli errori più grandi, 
# quindi questo indica che RF tende a fare meno errori grandi rispetto a KNN.

# R2 Score: RF ha un punteggio R2 leggermente migliore rispetto a KNN. Tuttavia, in entrambi i casi, 
# il punteggio R2 è molto vicino a zero, il che indica che i modelli non stanno spiegando bene la variazione nei dati. 
# In altre parole, la capacità predittiva dei modelli è limitata.

# In conclusione, il modello RandomForestRegressor sembra essere leggermente migliore rispetto al modello KNeighborsRegressor per questo problema specifico. 
# Tuttavia, è importante notare che entrambi i modelli hanno 
# una bassa capacità predittiva, il che potrebbe indicare che è necessario esplorare ulteriormente i dati e/o considerare altri modelli o funzionalità per migliorare le prestazioni.

In [4]:
# I risultati mostrano che il modello Random Forest ha una capacità predittiva relativamente buona, soprattutto se confrontato con il modello KNN. 
# L'R2 Score, che varia tra 0 e 1, indica quanto bene il modello spiega la variazione nei dati. Un valore di R2 vicino a 1 indica 
# che il modello è in grado di spiegare una grande parte della variazione nei dati.

# Per il modello Random Forest, l'R2 Score per la latitudine è 0.9212 e per la longitudine è 0.8673. 
# Questi valori suggeriscono che il modello Random Forest è abbastanza accurato nella previsione delle 
# coordinate geografiche delle stazioni di ricarica.

# Tuttavia, è importante ricordare che questi risultati si basano sui dati di addestramento e 
# validazione. Per avere una visione più completa dell'accuratezza del modello, sarebbe utile testarlo su un set di dati di test separato e indipendente.

# In sintesi, il modello Random Forest sembra essere un modello abbastanza 
# buono per questo problema, ma è sempre meglio verificare le sue prestazioni 
# su un set di dati di test per confermare la sua capacità predittiva.

In [5]:
import os
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import LabelEncoder
import joblib

# Carica i dati
data = pd.read_csv("ChargingStationCleaned.csv", encoding='utf-8')

def correct_state_name(state):
    corrections = {
        "Baden-Wï¿½rttemberg": "Baden-Württemberg",
        "Thï¿½ringen": "Thüringen",
        # aggiungi qui altre correzioni se necessario
    }
    return corrections.get(state, state)

data['federal_state'] = data['federal_state'].apply(correct_state_name)

# Estrai l'anno di costruzione
data['year'] = pd.to_datetime(data['commissioning_date']).dt.year

# Preparazione dei dati
le = LabelEncoder()
data['federal_state_encoded'] = le.fit_transform(data['federal_state'])
X = data[['year', 'federal_state_encoded']]
y_lat = data['latitude_[dg]']
y_lon = data['longitude_[dg]']

max_year = data['year'].max()

for year in range(2010, max_year + 1):
    year_data = data[data['year'] <= year]
    X_year = year_data[['year', 'federal_state_encoded']]
    y_lat_year = year_data['latitude_[dg]']
    y_lon_year = year_data['longitude_[dg]']

    # Addestra il modello
    rf_model_lat = RandomForestRegressor(n_estimators=100, random_state=42)
    rf_model_lat.fit(X_year, y_lat_year)

    rf_model_lon = RandomForestRegressor(n_estimators=100, random_state=42)
    rf_model_lon.fit(X_year, y_lon_year)

    # Crea la cartella per l'anno corrente se non esiste
    year_folder = f"prediction_model/{year}"
    if not os.path.exists(year_folder):
        os.makedirs(year_folder)

    # Salva il modello nella cartella corrispondente all'anno
    joblib.dump(rf_model_lat, f'{year_folder}/rf_model_{year}_lat.pkl')
    joblib.dump(rf_model_lon, f'{year_folder}/rf_model_{year}_lon.pkl')
