In [1]:
import numpy as np
import pandas as pd
from numpy.linalg import norm

# =========================
# 1) Chargement du dataset
# =========================

df = pd.read_csv("artificial_dataset.csv")

print("Aperçu des données :")
display(df.head())

print("\nShape (lignes, colonnes) :", df.shape)
print("\nColonnes :", df.columns.tolist())


# =======================================
# 2) Préparation des données numériques
# =======================================

# On transforme le DataFrame en tableau NumPy (plus simple pour les calculs)
X = df.values  # shape (n_samples, n_features)
n_samples = X.shape[0]

# On calcule les écarts-types des colonnes
stds = df.std().values

# Petit garde-fou : si un écart-type est nul, on le remplace par 1 pour éviter une division par 0
stds[stds == 0] = 1.0

print("\nÉcarts-types des colonnes :")
for col, s in zip(df.columns, stds):
    print(f"{col}: {s:.3f}")


# ============================
# 3) Définition des 2 métriques
# ============================

# Metric 1 : distance euclidienne "brute"
# -> On ne touche pas aux unités, on utilise les valeurs telles quelles
def metric1(x, y):
    return norm(x - y)

# Metric 2 : distance euclidienne normalisée
# -> On divise chaque feature par son écart-type pour équilibrer l'importance de chaque colonne
def metric2(x, y):
    return norm((x - y) / stds)


# ============================================
# 4) Recherche des paires les plus proches / loin
# ============================================

# On va parcourir toutes les paires (i, j) avec i < j
# et garder pour chaque métrique :
# - la paire la plus proche
# - la paire la plus éloignée

closest_m1 = {"i": None, "j": None, "d": float("inf")}
farthest_m1 = {"i": None, "j": None, "d": 0.0}

closest_m2 = {"i": None, "j": None, "d": float("inf")}
farthest_m2 = {"i": None, "j": None, "d": 0.0}

for i in range(n_samples):
    for j in range(i + 1, n_samples):
        x_i = X[i]
        x_j = X[j]

        d1 = metric1(x_i, x_j)
        d2 = metric2(x_i, x_j)

        # Mise à jour pour la métrique 1
        if d1 < closest_m1["d"]:
            closest_m1 = {"i": i, "j": j, "d": d1}
        if d1 > farthest_m1["d"]:
            farthest_m1 = {"i": i, "j": j, "d": d1}

        # Mise à jour pour la métrique 2
        if d2 < closest_m2["d"]:
            closest_m2 = {"i": i, "j": j, "d": d2}
        if d2 > farthest_m2["d"]:
            farthest_m2 = {"i": i, "j": j, "d": d2}

print("\n=== Résultats bruts (indices et distances) ===")
print(f"Metric 1 - plus proches : indices ({closest_m1['i']}, {closest_m1['j']}), distance = {closest_m1['d']:.4f}")
print(f"Metric 1 - plus éloignés : indices ({farthest_m1['i']}, {farthest_m1['j']}), distance = {farthest_m1['d']:.4f}\n")

print(f"Metric 2 - plus proches : indices ({closest_m2['i']}, {closest_m2['j']}), distance = {closest_m2['d']:.4f}")
print(f"Metric 2 - plus éloignés : indices ({farthest_m2['i']}, {farthest_m2['j']}), distance = {farthest_m2['d']:.4f}")


# ============================================
# 5) Affichage des échantillons correspondants
# ============================================

print("\n=== METRIC 1 : échantillons les plus proches ===")
display(df.iloc[[closest_m1["i"], closest_m1["j"]]])

print("\n=== METRIC 2 : échantillons les plus proches ===")
display(df.iloc[[closest_m2["i"], closest_m2["j"]]])

print("\n=== METRIC 1 : échantillons les plus éloignés ===")
display(df.iloc[[farthest_m1["i"], farthest_m1["j"]]])

print("\n=== METRIC 2 : échantillons les plus éloignés ===")
display(df.iloc[[farthest_m2["i"], farthest_m2["j"]]])


Aperçu des données :


Unnamed: 0,Temperature_C,Humidity_pct,Pressure_hPa,WindSpeed_kmh,Altitude_m,WindPower_kW
0,18.476999,47.565075,1002.169245,31.055909,1950,122.053085
1,14.03215,51.597284,1008.476339,17.622677,81,67.771812
2,19.53382,71.209404,998.478034,31.956847,355,128.263964
3,25.661209,69.155554,1000.962002,35.845103,1281,146.11387
4,13.360926,59.686476,999.638511,28.307479,1741,113.846068



Shape (lignes, colonnes) : (300, 6)

Colonnes : ['Temperature_C', 'Humidity_pct', 'Pressure_hPa', 'WindSpeed_kmh', 'Altitude_m', 'WindPower_kW']

Écarts-types des colonnes :
Temperature_C: 6.889
Humidity_pct: 14.362
Pressure_hPa: 6.338
WindSpeed_kmh: 7.973
Altitude_m: 578.691
WindPower_kW: 32.571

=== Résultats bruts (indices et distances) ===
Metric 1 - plus proches : indices (15, 56), distance = 6.5758
Metric 1 - plus éloignés : indices (116, 234), distance = 1998.3680

Metric 2 - plus proches : indices (207, 229), distance = 0.2964
Metric 2 - plus éloignés : indices (209, 262), distance = 10.5954

=== METRIC 1 : échantillons les plus proches ===


Unnamed: 0,Temperature_C,Humidity_pct,Pressure_hPa,WindSpeed_kmh,Altitude_m,WindPower_kW
15,11.063987,60.315058,1004.726287,26.033769,16,98.876603
56,9.125477,59.722303,1003.724389,25.111434,21,102.380564



=== METRIC 2 : échantillons les plus proches ===


Unnamed: 0,Temperature_C,Humidity_pct,Pressure_hPa,WindSpeed_kmh,Altitude_m,WindPower_kW
207,18.596502,47.040138,1002.165817,21.170011,728,92.492342
229,19.757184,46.435251,1002.806457,22.745723,713,95.361472



=== METRIC 1 : échantillons les plus éloignés ===


Unnamed: 0,Temperature_C,Humidity_pct,Pressure_hPa,WindSpeed_kmh,Altitude_m,WindPower_kW
116,14.757018,83.26728,1005.711941,25.913821,1999,103.28994
234,30.007609,50.222458,994.386023,24.722521,1,107.325023



=== METRIC 2 : échantillons les plus éloignés ===


Unnamed: 0,Temperature_C,Humidity_pct,Pressure_hPa,WindSpeed_kmh,Altitude_m,WindPower_kW
209,41.96912,47.535748,978.042191,17.843142,101,73.301988
262,-7.688871,73.066871,1021.09104,37.380042,634,139.780733
