Voici un exemple de d'arbre de décision avec le dataset d'assurance utilise dans le projet précedent.
Vous pouvez voir que le r2 est plus faible que lors de notre dernier projet. Ceci ce justifie pas le faire que certains modèle sont plus adapté aux regression linéraires qu'au arbre des decision. De plus ce modele est le plus simple des arbres de décisions que vous allez voir.

Nous utilisons ici un arbre de regression car notre sortie est une variable numérique.

In [85]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor, DecisionTreeClassifier
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error, accuracy_score, r2_score

file_path = 'datasets/data_cleaned.csv'

df = pd.read_csv(file_path)

X = df.drop('charges', axis=1)
y = df['charges']

# Définition des colonnes catégoriques et numériques
categorical_cols = ['sex', 'smoker', 'region']
numeric_cols = ['age', 'bmi', 'children']

# Création du preprocessor pour transformer les données
preprocessor = ColumnTransformer(
    transformers=[
        ('num', 'passthrough', numeric_cols),
        ('cat', OneHotEncoder(), categorical_cols)
    ])

# Création du pipeline avec le preprocessor et le modèle d'arbre de décision
pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('model', DecisionTreeRegressor(random_state=42))
])

# Division du jeu de données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Ajustement du modèle sur les données d'entraînement
pipeline.fit(X_train, y_train)

# Prédictions sur l'ensemble de test
y_pred = pipeline.predict(X_test)

# Calcul du R2
r2 = r2_score(y_test, y_pred)
print("Coefficient de détermination R2:", r2)

# # Calcul de l'accuracy
# accuracy = accuracy_score(y_test, y_pred)
# print("Accuracy:", accuracy)

# Accéder à l'impureté de Gini au nœud racine
root_gini = pipeline.named_steps['model'].tree_.impurity[0]
print("Impurity (Gini) at root node:", root_gini)

# Accéder à la profondeur de l'arbre de décision
tree_depth = pipeline.named_steps['model'].tree_.max_depth
print("Profondeur de l'arbre de décision:", tree_depth)

Coefficient de détermination R2: 0.798068772079155
Impurity (Gini) at root node: 136914670.11990908
Profondeur de l'arbre de décision: 20


In [86]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.metrics import r2_score, mean_squared_error
from sklearn import tree

file_path = 'datasets/data_cleaned.csv'

df = pd.read_csv(file_path)

X = df.drop('charges', axis=1)
y = df['charges']

# Définition des colonnes catégoriques et numériques
categorical_cols = ['sex', 'smoker', 'region']
numeric_cols = ['age', 'bmi', 'children']

# Création du preprocessor pour transformer les données
preprocessor = ColumnTransformer(
    transformers=[
        ('num', 'passthrough', numeric_cols),
        ('cat', OneHotEncoder(), categorical_cols)
    ])

# Création du pipeline avec le preprocessor et le modèle d'arbre de décision
pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('model', DecisionTreeRegressor(random_state=42))
])

# Division du jeu de données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Ajustement du modèle sur les données d'entraînement
pipeline.fit(X_train, y_train)

# Prédictions sur l'ensemble de test
y_pred = pipeline.predict(X_test)

# Calcul du R2
r2 = r2_score(y_test, y_pred)
print("Coefficient de détermination R2:", r2)

# Affichage du Mean Squared Error (MSE)
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error (MSE):", mse)


# Affichage de l'accuracy
accuracy = pipeline.score(X_test, y_test)
print("Accuracy:", accuracy)

# Affichage de la profondeur de l'arbre de décision
depth = pipeline.named_steps['model'].get_depth()
print("Profondeur de l'arbre de décision:", depth)


Coefficient de détermination R2: 0.798068772079155
Mean Squared Error (MSE): 37106087.64972062
Accuracy: 0.798068772079155
Profondeur de l'arbre de décision: 20


Random Forest:

In [84]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.metrics import r2_score, mean_squared_error

file_path = 'datasets/data_cleaned.csv'

df = pd.read_csv(file_path)

X = df.drop('charges', axis=1)
y = df['charges']

# Définition des colonnes catégoriques et numériques
categorical_cols = ['sex', 'smoker', 'region']
numeric_cols = ['age', 'bmi', 'children']

# Création du preprocessor pour transformer les données
preprocessor = ColumnTransformer(
    transformers=[
        ('num', 'passthrough', numeric_cols),
        ('cat', OneHotEncoder(), categorical_cols)
    ])

# Création du pipeline avec le preprocessor et le modèle Random Forest
pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('model', RandomForestRegressor(random_state=42))
])

# Division du jeu de données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Ajustement du modèle sur les données d'entraînement
pipeline.fit(X_train, y_train)

# Prédictions sur l'ensemble de test
y_pred = pipeline.predict(X_test)

# Calcul du R2
r2 = r2_score(y_test, y_pred)
print("Coefficient de détermination R2:", r2)

# Affichage du Mean Squared Error (MSE)
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error (MSE):", mse)

# Affichage de l'accuracy
accuracy = pipeline.score(X_test, y_test)
print("Accuracy:", accuracy)

# Note: Random Forests don't have a single 'depth' attribute like Decision Trees. 
# If you want information about the trees in the forest, you may need to access each tree individually.


Coefficient de détermination R2: 0.8824310851066982
Mean Squared Error (MSE): 21604001.054376133
Accuracy: 0.8824310851066982
