
### Exercice : Prédiction de survie sur le Titanic

Adaboost est généralement utilisé pour les problémes de classification. Dans notre cas, on va prédire la survie avec le dataset Titanic.

Reprenez le dataframe utilisé dans l'implementation avec les arbres de décision pour cet exercice.


In [12]:
import pandas as pd
from sklearn.ensemble import AdaBoostClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.impute import SimpleImputer

# Charger le dataset
data = pd.read_csv('./datasets/titanic.csv') 
data= data.drop(['name', 'sibsp', 'parch', 'ticket', 'fare', 'cabin', 'embarked', 'boat', 'body', 'home.dest'], axis=1)

#remplace les valeurs manquantes de age par une moyenne
imputer = SimpleImputer(strategy='mean')

#impute à colonne 'age'
data['age'] = imputer.fit_transform(data[['age']]).ravel()

#verifier dataset 
print(data)

      pclass  survived     sex        age
0        1.0       1.0  female  29.000000
1        1.0       1.0    male   0.916700
2        1.0       0.0  female   2.000000
3        1.0       0.0    male  30.000000
4        1.0       0.0  female  25.000000
...      ...       ...     ...        ...
1305     3.0       0.0  female  29.881135
1306     3.0       0.0    male  26.500000
1307     3.0       0.0    male  27.000000
1308     3.0       0.0    male  29.000000
1309     NaN       NaN     NaN  29.881135

[1310 rows x 4 columns]


In [13]:
#check la ligne où il y a Nan

ligne_nan = data[data.isna().any(axis=1)]
print(ligne_nan)

# où est l'index de la ligne avec NaN
index_nan = data[data.isna().all(axis=1)].index


data = data.dropna()



      pclass  survived  sex        age
1309     NaN       NaN  NaN  29.881135


In [16]:


X = data.drop("survived", axis=1)
y = data['survived']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=data['sex'])

label_encoder = LabelEncoder()
data['sex'] = label_encoder.fit_transform(data['sex'])



In [17]:
model = AdaBoostClassifier(n_estimators=100, learning_rate=1)

model.fit(X_train, y_train)

y_pred = model.predict(X_test)

# importance des features
feature_importance = model.feature_importances_

# features et leur nom
feature_importance_dict = dict(zip(data.columns, feature_importance))

# affiche features et nom
for feature, importance in feature_importance_dict.items():
    print(f"{feature}: {importance}")

accuracy_titanic = accuracy_score(y_test, y_pred)

print('Accuracy:',accuracy_titanic) 


pclass: 0.08
survived: 0.02
sex: 0.9
Accuracy: 0.7404580152671756


In [None]:
#Pour ceux qui ont terminé, 

data_apple = pd.read_csv('./datasets/apple_quality.csv') 

#verifier dataset 
print(data_apple)

data_apple.isna().any()

In [18]:
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.linear_model import LogisticRegression


# Traitement des données
label_encoder = LabelEncoder()
X = data.drop("survived", axis=1)
y = data['survived']


# Diviser les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=data['sex'])

# Régression logistique
logistic_regression_model = LogisticRegression()
logistic_regression_model.fit(X_train, y_train)
logistic_regression_predictions = logistic_regression_model.predict(X_test)

# AdaBoost
adaboost_model = AdaBoostClassifier(n_estimators=50, random_state=42)
adaboost_model.fit(X_train, y_train)
adaboost_predictions = adaboost_model.predict(X_test)

# Évaluer la performance des modèles
accuracy_logistic_regression = accuracy_score(y_test, logistic_regression_predictions)
accuracy_adaboost = accuracy_score(y_test, adaboost_predictions)

conf_matrix_logistic_regression = confusion_matrix(y_test, logistic_regression_predictions)
conf_matrix_adaboost = confusion_matrix(y_test, adaboost_predictions)

classification_rep_logistic_regression = classification_report(y_test, logistic_regression_predictions)
classification_rep_adaboost = classification_report(y_test, adaboost_predictions)

# Afficher les résultats
print("Régression logistique :")
print(f"Précision du modèle : {accuracy_logistic_regression}")
print("Matrice de confusion :\n", conf_matrix_logistic_regression)
print("Rapport de classification :\n", classification_rep_logistic_regression)

print("\nAdaBoost :")
print(f"Précision du modèle : {accuracy_adaboost}")
print("Matrice de confusion :\n", conf_matrix_adaboost)
print("Rapport de classification :\n", classification_rep_adaboost)


Régression logistique :
Précision du modèle : 0.7862595419847328
Matrice de confusion :
 [[140  29]
 [ 27  66]]
Rapport de classification :
               precision    recall  f1-score   support

         0.0       0.84      0.83      0.83       169
         1.0       0.69      0.71      0.70        93

    accuracy                           0.79       262
   macro avg       0.77      0.77      0.77       262
weighted avg       0.79      0.79      0.79       262


AdaBoost :
Précision du modèle : 0.7480916030534351
Matrice de confusion :
 [[127  42]
 [ 24  69]]
Rapport de classification :
               precision    recall  f1-score   support

         0.0       0.84      0.75      0.79       169
         1.0       0.62      0.74      0.68        93

    accuracy                           0.75       262
   macro avg       0.73      0.75      0.74       262
weighted avg       0.76      0.75      0.75       262



In [19]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

In [21]:

file_path = 'datasets/titanic.csv'

df = pd.read_csv(file_path)

# Sélection des colonnes pertinentes
selected_columns = ["pclass", "sex", "age", "sibsp", "parch", "fare", "embarked", "survived"]
df = df[selected_columns]

# Suppression des lignes avec des valeurs manquantes
df = df.dropna()

# Séparation des features et de la variable cible
X = df.drop("survived", axis=1)
y = df["survived"]

# Définition des colonnes catégoriques et numériques
categorical_cols = ["sex", "embarked"]
numeric_cols = ["pclass", "age", "sibsp", "parch", "fare"]

# Création du preprocessor pour transformer les données
preprocessor = ColumnTransformer(
    transformers=[
        ("num", "passthrough", numeric_cols),
        ("cat", OneHotEncoder(), categorical_cols)
    ])

# Création du pipeline avec le preprocessor et le modèle RandomForestClassifier
pipeline_rf = Pipeline([
    ("preprocessor", preprocessor),
    ("model", RandomForestClassifier(n_estimators=100, max_samples= 0.9, random_state=42))
])

# Division du jeu de données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42,)

# Ajustement du modèle sur les données d'entraînement
pipeline_rf.fit(X_train, y_train)

# Prédictions sur l'ensemble de test
y_pred_rf = pipeline_rf.predict(X_test)

# Calcul de l'accuracy pour le modèle RandomForest
accuracy_rf = accuracy_score(y_test, y_pred_rf)
print("Accuracy (RandomForest):", accuracy_rf)

# Accéder à l'impureté de Gini au nœud racine
root_gini = Pipeline.named_steps['model'].tree_.impurity[0]
print("Impurity (Gini) at root node:", root_gini)

# Accéder à la profondeur de l'arbre de décision
tree_depth = Pipeline.named_steps['model'].tree_.max_depth
print("Profondeur de l'arbre de décision:", tree_depth)

Accuracy (RandomForest): 0.7799043062200957


TypeError: 'property' object is not subscriptable