In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
from sklearn.tree import DecisionTreeRegressor, DecisionTreeClassifier
from sklearn.svm import SVR, SVC
from sklearn.metrics import mean_absolute_error, mean_squared_error, accuracy_score

In [None]:
def load_and_preprocess_data(file_path, target_column):
    """Charge et prépare les données pour l'entraînement."""
    df = pd.read_csv(file_path)
    print("Données chargées avec succès.")

    if target_column not in df.columns:
        raise ValueError(f"La colonne cible '{target_column}' n'existe pas dans les données.")

    X = df.drop(columns=['Pays', target_column])  # Suppression des colonnes inutiles
    y = df[target_column]

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Normalisation des données
    scaler = StandardScaler()
    X_train = scaler.fit_transform(X_train)
    X_test = scaler.transform(X_test)

    return X_train, X_test, y_train, y_test, y.nunique() > 5  # Déterminer si c'est un problème de régression

def apply_regression(X_train, X_test, y_train, y_test):
    """Applique des modèles de régression et affiche leurs performances."""
    models = {
        "Régression Linéaire": LinearRegression(),
        "Arbre de Décision": DecisionTreeRegressor(),
        "Random Forest": RandomForestRegressor(n_estimators=100),
        "SVM Régression": SVR()
    }

    for name, model in models.items():
        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)

        print(f"\nModèle : {name}")
        print(f"MAE: {mean_absolute_error(y_test, y_pred):.4f}")
        print(f"RMSE: {np.sqrt(mean_squared_error(y_test, y_pred)):.4f}")

def apply_classification(X_train, X_test, y_train, y_test):
    """Applique des modèles de classification et affiche leurs performances."""
    models = {
        "Arbre de Décision": DecisionTreeClassifier(),
        "Random Forest": RandomForestClassifier(n_estimators=100),
        "SVM Classification": SVC()
    }

    for name, model in models.items():
        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)

        print(f"\nModèle : {name}")
        print(f"Précision: {accuracy_score(y_test, y_pred):.4f}")

def apply_machine_learning(file_path="transformed_countries.csv", target_column="Indice de qualité de vie"):
    """Détermine le type de problème (régression ou classification) et applique les modèles appropriés."""
    try:
        X_train, X_test, y_train, y_test, is_regression = load_and_preprocess_data(file_path, target_column)

        if is_regression:
            print("\n--- Application de la régression ---")
            apply_regression(X_train, X_test, y_train, y_test)
        else:
            print("\n--- Application de la classification ---")
            apply_classification(X_train, X_test, y_train, y_test)

    except Exception as e:
        print(f"Erreu : {e}")


In [3]:
apply_machine_learning("transformed_countries.csv", "Indice de qualité de vie")

Données chargées avec succès.

--- Application de la régression ---

Modèle : Régression Linéaire
MAE: 0.0450
RMSE: 0.0613

Modèle : Arbre de Décision
MAE: 14.1167
RMSE: 17.8485

Modèle : Random Forest
MAE: 9.3574
RMSE: 11.3100

Modèle : SVM Régression
MAE: 33.1570
RMSE: 37.2127
