---
title: Implémentation de classifieurs binaires 
---

### Imports

In [2]:
from utils import roc_plot, precision_recall_plot, table_report
from get_dataset import load_dataset, dataset_loaders

dataset = list(dataset_loaders.keys())[0]

X, y = load_dataset(dataset)

### Data presentation

In [None]:
print(f"""
{dataset} contains n = {len(X)} samples with d = {X.shape[1]} features
{y.mean() * 100:.2f}% of the samples are positive
""")

### Classifieurs non paramétriques linéaires

#### K-Nearest Neighbors

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# K-Nearest Neighbors
knn = KNeighborsClassifier(n_neighbors=5, n_jobs=-1)
knn.fit(X_train, y_train)
y_pred_knn = knn.predict(X_test)
y_pred_proba_knn = knn.predict_proba(X_test)[:,1]

roc_plot(y_test, y_pred_proba_knn)
precision_recall_plot(y_test, y_pred_proba_knn)
table_report(y_test, y_pred_knn)

#### Distance-Weighted KNN

#### Condensed Nearest Neighbor

#### Locally Adaptive KNN

In [None]:

# Distance-Weighted KNN
weighted_knn = KNeighborsClassifier(n_neighbors=5, weights='distance')
weighted_knn.fit(X_train, y_train)
y_pred_weighted_knn = weighted_knn.predict(X_test)
print(f"Distance-Weighted KNN Accuracy: {accuracy_score(y_test, y_pred_weighted_knn)}")

# Locally Adaptive KNN (using a custom approach)
class LocallyAdaptiveKNN(KNeighborsClassifier):
    def predict(self, X):
        distances, indices = self.kneighbors(X)
        predictions = []
        for i, neighbors in enumerate(indices):
            local_k = int(len(neighbors) / 2)  # Example of adapting k locally
            local_knn = KNeighborsClassifier(n_neighbors=local_k)
            local_knn.fit(self._fit_X[neighbors], self._y[neighbors])
            predictions.append(local_knn.predict([X[i]])[0])
        return predictions

adaptive_knn = LocallyAdaptiveKNN(n_neighbors=10)
adaptive_knn.fit(X_train, y_train)
y_pred_adaptive_knn = adaptive_knn.predict(X_test)
print(f"Locally Adaptive KNN Accuracy: {accuracy_score(y_test, y_pred_adaptive_knn)}")

### Classifieurs binaires non linéaires

Algorithmes de classification non linéaires implémentés :
- Arbres de décisions
- Forêts aléatoires
- Adaboost

Arbres/Forêts :
- Random Forest avec cost-sensitive learning
- Extremely Randomized Trees
- Gradient Boosted Decision Trees
- Weighted Random Forest pour classes déséquilibrées

AdaBoost :
- AdaBoost avec différents classifieurs de base
- Cost-sensitive AdaBoost
- AdaBoost.M1 avec early stopping
- RUSBoost (combine boosting et under-sampling)

### Classifieurs binaires paramétriques

Algorithmes de classification paramétriques implémentés :
- SVM linéaire (ou noyau linéaire)
- Régression logistique

SVM :
- One-class SVM pour gérer le déséquilibre des classes
- Combiner avec des méthodes de sous/sur-échantillonnage (SMOTE, RandomUnderSampling)
- Cost-sensitive SVM : Différentes pénalités C pour chaque classe
- Ensemble de SVMs avec bagging

Régression logistique :
- Régression logistique avec pénalisation élastique (combinaison L1/L2)
- Cost-sensitive avec pondération des classes
- Régression logistique polynomiale
- Régression logistique avec sélection de features

### Évaluation

In [4]:
from utils import roc_plot, precision_recall_plot, table_report

La [](#table_report_LR1) montre les résultats de la classification par le modèle de régression logistique. On observe que :

- $83,04 \%$ des *spams* sont correctement identifiés
- $99,59 \%$ des *hams* sont correctement identifiés
- $96,88 \%$ des observations classifiées en tant que *spam* sont des *spams*
- $97,43 \%$ des observations classifiées en tant que *ham* sont des *hams*
- Le score F1 moyen pondéré est de $97,98 \%$ 