# TP 1 : √âvaluation de l'acceptance d'un mod√®le de voiture
## Auteur : Oussema

### üéØ Objectif du Projet
D√©velopper une solution d'intelligence artificielle permettant de pr√©dire l'acceptabilit√© d'un v√©hicule. La pr√©diction se base sur 6 attributs cl√©s :
* **√âconomiques** : Prix d'achat et co√ªt d'entretien.
* **Techniques** : Nombre de portes, capacit√© de passagers, taille du coffre et niveau de s√©curit√©.

### üõ†Ô∏è M√©thodologie
Nous allons comparer trois approches de classification :
1. **Arbres de D√©cision** (Mod√®le de base)
2. **Random Forest** (Approche par for√™t al√©atoire)
3. **Gradient Boosting** (Optimisation par boosting)

In [1]:
# Importation des biblioth√®ques de manipulation de donn√©es et de Machine Learning
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeClassifier, plot_tree, export_graphviz
from sklearn import preprocessing, metrics
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier



## 1. Chargement et Exploration des donn√©es
Nous importons le jeu de donn√©es original pour v√©rifier sa structure avant toute modification.

In [2]:
# Lecture du fichier Excel
df = pd.read_excel('car_excel.xlsx')

# Affichage des dimensions et des premi√®res lignes
print(f"Dimensions du dataset : {df.shape}")
df.head()

Dimensions du dataset : (1728, 7)


Unnamed: 0,BUYING,MAINT,DOORS,PERSONS,LUG_BOOT,SAFETY,DECISION
0,vhigh,vhigh,2,2,small,low,unacc
1,vhigh,vhigh,2,2,small,med,unacc
2,vhigh,vhigh,2,2,small,high,unacc
3,vhigh,vhigh,2,2,med,low,unacc
4,vhigh,vhigh,2,2,med,med,unacc


## 2. Pr√©traitement des donn√©es
### Encodage des variables (Label Encoding)
Les algorithmes de `scikit-learn` n√©cessitent des entr√©es num√©riques. Nous transformons les variables cat√©gorielles en valeurs enti√®res tout en conservant une copie des donn√©es originales dans `df_bis`.

In [4]:
# --- SECTION 2 : PR√âTRAITEMENT ---
df_bis = df.copy()
le = preprocessing.LabelEncoder()

# 1. On force d'abord toutes les valeurs en cha√Ænes de caract√®res (string)
# Cela r√®gle le probl√®me du m√©lange int/str
df_bis = df_bis.astype(str)

# 2. Maintenant, on peut encoder sans erreur
for col in df_bis.columns:
    df_bis[col] = le.fit_transform(df_bis[col])

# Sauvegarde du fichier encod√©
df_bis.to_excel('car_excel_bis.xlsx', index=False)

print("Succ√®s ! Toutes les colonnes ont √©t√© uniformis√©es et encod√©es.")
df_bis.head()

Succ√®s ! Toutes les colonnes ont √©t√© uniformis√©es et encod√©es.


Unnamed: 0,BUYING,MAINT,DOORS,PERSONS,LUG_BOOT,SAFETY,DECISION
0,3,3,0,0,2,1,2
1,3,3,0,0,2,2,2
2,3,3,0,0,2,0,2
3,3,3,0,0,1,1,2
4,3,3,0,0,1,2,2
