In [9]:
from matplotlib import pyplot as plt
import numpy as np
import pandas as pd
from sklearn.calibration import LinearSVC
from sklearn.discriminant_analysis import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.multiclass import OneVsOneClassifier, OneVsRestClassifier, OutputCodeClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import ConfusionMatrixDisplay

# Charger les données
df=pd.read_csv('../data/new_dataset.csv')

# Fonction qui prends en argument un dataset, une liste de feature, la variable cible et un modèle
# Cette fonction s'occupe de tout: 
# - séparées les données en données d'entrainement et test
# - entraine le modèles 
# - retourne l'accuracy
def get_classification_score(dataset, list_of_features, label, model):
    temp = dataset.copy()   
    y = temp.pop(label)
    
    Xtrain, Xtest, ytrain, ytest = train_test_split(temp, y,test_size=0.25, random_state=0)

    Xtrain = Xtrain[list_of_features].values
    Xtest = Xtest[list_of_features].values
        
    if len(Xtrain.shape) < 2:
        Xtrain = Xtrain.reshape(-1, 1)
        
    if len(Xtest.shape) < 2:
        Xtest = Xtest.reshape(-1, 1)

    # Normalise les données
    scaler = StandardScaler()
    Xtrain = scaler.fit_transform(Xtrain)
    Xtest = scaler.transform(Xtest)
        
    model.fit(Xtrain,ytrain)
    ypredit = model.predict(Xtest)

    return accuracy_score(ytest, ypredit)

# Définition du modèle
linear_svc = LinearSVC(
    multi_class='ovr', 
    dual=False, 
    max_iter=15000,
    C=12)

# Fonction qui retourne une liste de feature aléatoirement 
def generate_random_features_list(all_features, max_features=-1):
    if max_features == -1:
        return all_features
    n_features = np.random.randint(1, max_features+1)
    return np.random.choice(all_features, size=n_features, replace=False)

all_features = ["Weight", "Height", "Gender", "Age", "family_history_with_overweight",
                    "FAVC", "FCVC", "NCP", "CAEC", "SMOKE", "CH2O", "SCC", "FAF", "TUE",
                    "CALC", "MTRANS"]
tab_score = []
tab_feature = []

for i in range(30):
    features = generate_random_features_list(all_features, len(all_features))
    score = get_classification_score(df, features, "NObeyesdad", linear_svc)
    tab_score.append(score)
    tab_feature.append(features)

print(max(tab_score))

for i in range(10):
    print(tab_score[i], " avec les features suivantes : ", tab_feature[i])


0.7471264367816092
0.7222222222222222  avec les features suivantes :  ['FCVC' 'Gender' 'SMOKE' 'Weight' 'FAF' 'SCC' 'Height' 'CALC' 'MTRANS'
 'CAEC' 'family_history_with_overweight']
0.1839080459770115  avec les features suivantes :  ['CH2O']
0.5306513409961686  avec les features suivantes :  ['Height' 'SMOKE' 'FCVC' 'CH2O' 'FAVC' 'NCP' 'MTRANS' 'CALC'
 'family_history_with_overweight' 'Gender' 'TUE' 'SCC']
0.43103448275862066  avec les features suivantes :  ['TUE' 'Gender' 'FAF' 'SMOKE' 'CALC' 'CAEC' 'NCP']
0.6934865900383141  avec les features suivantes :  ['SCC' 'Weight' 'Age' 'MTRANS' 'NCP' 'FAF' 'FCVC' 'CALC' 'CAEC' 'Gender'
 'FAVC' 'TUE' 'family_history_with_overweight']
0.39272030651340994  avec les features suivantes :  ['FCVC' 'NCP' 'CAEC']
0.3371647509578544  avec les features suivantes :  ['TUE' 'family_history_with_overweight' 'CAEC' 'Age' 'FAVC' 'SMOKE'
 'MTRANS' 'FAF']
0.7011494252873564  avec les features suivantes :  ['TUE' 'FCVC' 'Age' 'Height' 'Weight' 'CALC' 'Gender'