In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score


etudiants = pd.read_csv("TB_ETUDIANT.csv", encoding='latin-1', delimiter=";")

#creation de dataframe
df = pd.DataFrame(etudiants)

df 

Unnamed: 0,ID_ETUDIANT,Sexe,MoyenneBac,NotesMaths,NotesFrançais,NotesPhysChimie,NotesSVT,NotesAnglais,Interets1,Interets2,Orientation,Licence
0,ET001,F,15.0,16.0,16.0,12.75,8.00,6.0,agriculture,agro-alimentaire,agronomie,oui
1,ET002,F,10.0,7.0,15.0,20.00,20.00,13.0,Chimie,sociologie,Biologie,oui
2,ET003,F,10.0,14.0,17.0,17.00,17.00,9.0,Architecture,Mathematiques,Genie civil,oui
3,ET004,F,15.0,7.0,16.0,12.75,8.00,19.0,Informatique,Multimedia,Agriculture,non
4,ET005,F,12.0,9.0,13.0,19.00,19.00,15.0,sociologie,Sociologie,Medecine,oui
...,...,...,...,...,...,...,...,...,...,...,...,...
1142,ET1145,M,10.0,9.0,13.5,14.00,18.00,6.0,Assurance banque,Mathematiques,Informatique,oui
1143,ET1146,M,14.0,20.0,20.0,20.00,12.00,13.0,Anglais,Mathematiques,informatique,oui
1144,ET1147,M,13.0,19.0,19.0,10.00,12.25,9.0,Mathematiques,Genie civil,architecture,oui
1145,ET1148,F,10.0,20.0,20.0,17.00,13.50,19.0,Anglais,informatique,informatique,oui


In [2]:
# Séparation des variables indépendantes (X) et de la variable cible (y)
X = df[['MoyenneBac', 'NotesMaths', 'NotesFrançais', 'NotesPhysChimie', 'NotesSVT', 'NotesAnglais',  'Interets1', 'Interets2','Orientation']]
y = df['Licence']


# Division des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)



In [3]:
categorical_cols = ['Interets1', 'Interets2', 'Orientation']


preprocessor = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(), categorical_cols)
    ],
    remainder='passthrough'
)


decision_tree_model = DecisionTreeClassifier()


pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('classifier', decision_tree_model)
])


pipeline.fit(X_train, y_train)


y_pred = pipeline.predict(X_test)


accuracy = accuracy_score(y_test, y_pred)
print(f'Precision du modele darbre de decison: {accuracy}')



Precision du modele darbre de decison: 0.4782608695652174


In [4]:
# Nouvel étudiant pour la prédiction
nouvel_etudiant = {
    'MoyenneBac' : 14,
    'NotesMaths': 12,
    'NotesFrançais': 7,
    'NotesPhysChimie': 12,
    'NotesSVT': 10,
    'NotesAnglais': 18,
    'Interets1': 'Physiques',  
    'Interets2': 'Informatique',
    'Orientation': 'Genie civil'
}


# Créer un DataFrame à partir du nouvel étudiant
nouvel_etudiant_df = pd.DataFrame(nouvel_etudiant, index=[0])

# Faire la prédiction
prediction_nouvel_etudiant = pipeline.predict(nouvel_etudiant_df)

# Afficher la prédiction
print(prediction_nouvel_etudiant)

class_probabilities = pipeline.predict_proba(nouvel_etudiant_df)[0]
classes = pipeline.classes_

for classe, proba in zip(classes, class_probabilities):
    print(f"Classe : {classe}, Probabilité : {proba}")





['oui']
Classe : non, Probabilité : 0.0
Classe : oui, Probabilité : 1.0
