In [1]:
import pandas as pd
import joblib
from sklearn.preprocessing import StandardScaler

def preprocess_states_dataset(file_path, output_csv_path):
    # Charger les données
    df = pd.read_csv(file_path, delimiter='$')

    # Suppression des colonnes inutiles
    columns_to_drop = ['Unnamed: 0', 'mun_code']
    for col in columns_to_drop:
        if col in df.columns:
            df.drop(columns=[col], inplace=True)

    # Renommer les colonnes
    columns_to_rename = {
        'lat': 'Latitude',
        'lon': 'Longitude',
        'mun_name': 'state_name'
    }
    df.rename(columns=columns_to_rename, inplace=True)

    # Ajouter des colonnes factices pour correspondre à l'ensemble d'entraînement
    df['Speed_limit'] = 0  # Valeur factice
    df['Time'] = 0         # Valeur factice

    # Nettoyage des noms de colonnes
    df.columns = df.columns.str.strip()

    # Validation des coordonnées
    if 'Longitude' in df.columns and 'Latitude' in df.columns:
        df = df[(df['Longitude'] >= -180) & (df['Longitude'] <= 180)]
        df = df[(df['Latitude'] >= -90) & (df['Latitude'] <= 90)]

 # Charger le scaler et le modèle KMeans
    scaler = joblib.load('./models/scaler2.pkl')
    kmeans = joblib.load('./models/kmeans_model.pkl')


    # Normaliser toutes les colonnes nécessaires
    df[['Longitude', 'Latitude',  'Time' ,'Speed_limit']] = scaler.transform(
        df[['Longitude', 'Latitude', 'Time', 'Speed_limit']]
    )
    df['Longitude']= df['Longitude'].round(4)
    df['Latitude']= df['Latitude'].round(4)

    # Ajouter les clusters basés sur les coordonnées
    df['Location_Cluster'] = kmeans.predict(df[['Longitude', 'Latitude']])

    # Supprimer les colonnes factices après le clustering
    df.drop(columns=['Speed_limit', 'Time'], inplace=True)

    # Sauvegarder le dataset nettoyé et clusterisé
    df.to_csv(output_csv_path, index=False, sep=';')
    print(f"Données nettoyées et clusterisées sauvegardées dans : {output_csv_path}")

    return df

# Appel de la fonction
processed_df =preprocess_states_dataset("./part1/stn_UK.csv", "result_roud4_scaler2.csv")

processed_df

EOFError: 