In [11]:
import pandas as pd

def feature_accuracy_categorical(gt_values, observed_values):
    n = len(gt_values)
    mismatches = sum(gt != obs for gt, obs in zip(gt_values, observed_values))
    return 1 - mismatches / n if n > 0 else 0


def feature_accuracy_interval_numeric(observed_values, min_val, max_val):
    n = len(observed_values)
    in_range = sum(min_val <= val <= max_val for val in observed_values)
    return in_range / n if n > 0 else 0


def main():
    print("=== Feature Accuracy (numérique ou catégorielle) ===")
    filename = input("Nom du fichier CSV (ex: donnees_sante.csv) : ").strip()

    try:
        df = pd.read_csv(filename)
        print("\nColonnes disponibles :", list(df.columns))

        col_feature = input("\nNom de la colonne à évaluer : ").strip()
        if col_feature not in df.columns:
            print(" Colonne non trouvée.")
            return

        feature_type = input("Type de la donnée ? (num pour numérique / cat pour catégorielle) : ").strip().lower()

        if feature_type == "num":
            observed = pd.to_numeric(df[col_feature], errors='coerce').dropna()
            print(f"\n{len(observed)} valeurs numériques chargées. Exemple : {observed.head().tolist()}")
            min_val = float(input("Entrez la borne MIN de l’intervalle acceptable : "))
            max_val = float(input("Entrez la borne MAX de l’intervalle acceptable : "))
            acc = feature_accuracy_interval_numeric(observed.tolist(), min_val, max_val)
            print(f"\n Feature Accuracy numérique pour '{col_feature}' : {acc:.4f}")

        elif feature_type == "cat":
            observed = df[col_feature].dropna().astype(str)
            print(f"\n{len(observed)} valeurs catégorielles chargées. Exemple : {observed.head().tolist()}")
            allowed_input = input("Entrez les valeurs correctes séparées par des virgules : ")
            allowed_values = [v.strip() for v in allowed_input.split(",")]
            acc = feature_accuracy_categorical(observed.tolist(), allowed_values)
            print(f"\n Feature Accuracy catégorielle pour '{col_feature}' : {acc:.4f}")

        else:
            print(" Type non reconnu. Choisissez 'num' ou 'cat'.")

    except FileNotFoundError:
        print(" Fichier introuvable.")
    except Exception as e:
        print(" Erreur :", e)

if __name__ == "__main__":
    main()


=== Feature Accuracy (numérique ou catégorielle) ===


Nom du fichier CSV (ex: donnees_sante.csv) :  /home/fifkirne/4IF/pldsmart/donnees_sante.csv



Colonnes disponibles : ['Nom', 'Sexe_Obs', 'Cholesterol_Obs', 'Temp_Obs']



Nom de la colonne à évaluer :  Cholesterol_Obs
Type de la donnée ? (num pour numérique / cat pour catégorielle) :  num



5 valeurs numériques chargées. Exemple : [1.9, 2.1, 1.5, 1.2, 0.9]


Entrez la borne MIN de l’intervalle acceptable :  1.3
Entrez la borne MAX de l’intervalle acceptable :  1.7



 Feature Accuracy numérique pour 'Cholesterol_Obs' : 0.2000


In [None]:
/home/fifkirne/4IF/pldsmart/donnees_sante.csv