In [12]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import roc_auc_score

file_path = 'DATA/farms_train.csv'
data = pd.read_csv(file_path, encoding='utf-8-sig', sep=';')

# Afficher les premières lignes pour vérifier la structure des données
data.head()

Unnamed: 0,DIFF,R2,R7,R8,R17,R22,R32
0,0,705,29,1334,481,5258,2941
1,1,801,213,1282,186,21411,3005
2,1,591,429,2999,8,5957,4126
3,0,373,346,13704,812,343,2265
4,0,0,1417,2493,501,8728,1086


In [14]:
import chardet

# Détecter l'encodage du fichier
with open('DATA/farms_train.csv', 'rb') as f:
    result = chardet.detect(f.read())
    print(f"Encodage détecté : {result['encoding']}")


Encodage détecté : UTF-8-SIG


In [16]:
data.head()

Unnamed: 0,DIFF,R2,R7,R8,R17,R22,R32
0,0,705,29,1334,481,5258,2941
1,1,801,213,1282,186,21411,3005
2,1,591,429,2999,8,5957,4126
3,0,373,346,13704,812,343,2265
4,0,0,1417,2493,501,8728,1086


In [18]:
data.isna().sum()

DIFF    0
R2      0
R7      0
R8      0
R17     0
R22     0
R32     0
dtype: int64

In [20]:
# Identifier les colonnes de type 'object'
object_columns = data.select_dtypes(include=['object']).columns

# Nettoyer et convertir les colonnes de type 'object' en float
for col in object_columns:
    data[col] = data[col].str.replace(',', '.').str.strip()  # Remplacer ',' par '.' si nécessaire
    data[col] = pd.to_numeric(data[col], errors='coerce')    # Convertir en float, NaN pour erreurs

# Vérifier les types après la conversion
print(data.dtypes)

DIFF      int64
R2      float64
R7      float64
R8      float64
R17     float64
R22     float64
R32     float64
dtype: object


In [22]:
data.head()

Unnamed: 0,DIFF,R2,R7,R8,R17,R22,R32
0,0,0.705,0.29,0.1334,0.0481,0.5258,0.2941
1,1,0.801,0.213,0.1282,0.0186,2.1411,0.3005
2,1,0.591,0.429,0.2999,0.08,0.5957,0.4126
3,0,0.373,0.346,1.3704,0.0812,0.343,0.2265
4,0,0.0,1.417,0.2493,0.0501,0.8728,0.1086


In [24]:
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import roc_auc_score
import numpy as np

# Séparation des variables indépendantes (X) et la variable dépendante (y)
X = data.drop('DIFF', axis=1)  # Remplace 'DIFF' par le nom de la colonne cible si différent
y = data['DIFF']

# Diviser les données en un ensemble de train et un ensemble de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Standardiser les features
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Recherche du meilleur nombre de voisins (k) à l'aide de la validation croisée
best_k = None
best_auc = 0
k_range = range(1, 31)  # Tester les valeurs de k de 1 à 20

for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    cv_scores = cross_val_score(knn, X_train_scaled, y_train, cv=5, scoring='roc_auc')
    mean_auc = np.mean(cv_scores)
    print(f"k={k}, Validation croisée AUC moyenne : {mean_auc:.4f} \u00b1 {np.std(cv_scores):.4f}")
    
    if mean_auc > best_auc:
        best_k = k
        best_auc = mean_auc

print(f"Meilleur k : {best_k} avec une AUC moyenne de validation croisée de {best_auc:.4f}")

k=1, Validation croisée AUC moyenne : 0.7917 ± 0.0442
k=2, Validation croisée AUC moyenne : 0.8473 ± 0.0344
k=3, Validation croisée AUC moyenne : 0.8544 ± 0.0211
k=4, Validation croisée AUC moyenne : 0.8587 ± 0.0293
k=5, Validation croisée AUC moyenne : 0.8761 ± 0.0297
k=6, Validation croisée AUC moyenne : 0.8795 ± 0.0256
k=7, Validation croisée AUC moyenne : 0.8847 ± 0.0309
k=8, Validation croisée AUC moyenne : 0.8900 ± 0.0252
k=9, Validation croisée AUC moyenne : 0.8970 ± 0.0249
k=10, Validation croisée AUC moyenne : 0.8992 ± 0.0278
k=11, Validation croisée AUC moyenne : 0.9081 ± 0.0229
k=12, Validation croisée AUC moyenne : 0.9130 ± 0.0211
k=13, Validation croisée AUC moyenne : 0.9159 ± 0.0248
k=14, Validation croisée AUC moyenne : 0.9173 ± 0.0266
k=15, Validation croisée AUC moyenne : 0.9145 ± 0.0256
k=16, Validation croisée AUC moyenne : 0.9143 ± 0.0291
k=17, Validation croisée AUC moyenne : 0.9176 ± 0.0258
k=18, Validation croisée AUC moyenne : 0.9167 ± 0.0295
k=19, Validation cr

In [26]:
# Entraîner le modèle avec le meilleur k sur l'ensemble d'entraînement complet
knn = KNeighborsClassifier(n_neighbors=best_k)
knn.fit(X_train_scaled, y_train)

# Prédictions sur les données de test
y_pred_proba = knn.predict_proba(X_test_scaled)[:, 1]  # Proba pour la classe 1

# Calculer l'AUC sur l'ensemble de test
auc = roc_auc_score(y_test, y_pred_proba)
print(f'AUC sur l\'ensemble de test avec k={best_k} : {auc:.4f}')

AUC sur l'ensemble de test avec k=25 : 0.8769


Les KNN (k-Nearest Neighbors) ne fournissent pas directement de probabilités, car leur fonctionnement repose sur la proximité entre les points dans l’espace des features. Cependant, ils permettent de générer les probabilités nécessaires au calcul de l’AUC grâce à une méthode simple. Pour chaque observation, le modèle identifie ses k voisins les plus proches et calcule la probabilité d’appartenance à une classe comme étant la proportion des voisins appartenant à cette classe. Par exemple, si k = 5 et que 3 des 5 voisins appartiennent à la classe positive, alors la probabilité d’appartenance à cette classe est de 0,6.

Ces probabilités sont ensuite utilisées pour tracer la courbe ROC, et l’AUC est déterminée comme l’aire sous cette courbe. L’AUC permet de mesurer la capacité du modèle à différencier les classes positives et négatives. Ainsi, les probabilités calculées par les KNN reflètent simplement la proportion de voisins associés à chaque classe.