In [2]:
import numpy as np
import pandas as pd
from sklearn.cluster import AgglomerativeClustering
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import adjusted_rand_score
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:

# 1. Préparation des données
def load_data(period):
    # Simulons des données pour différentes périodes
    # Remplacez ceci par votre propre chargement de données
    np.random.seed(period)
    return pd.DataFrame({
        'feature1': np.random.normal(0, 1, 1000),
        'feature2': np.random.normal(0, 1, 1000),
        'feature3': np.random.normal(0, 1, 1000)
    })

# 2. Fonction pour le clustering
def perform_clustering(data):
    scaler = StandardScaler()
    X_normalized = scaler.fit_transform(data)
    clustering = AgglomerativeClustering(n_clusters=5)  # Ajustez le nombre de clusters selon votre modèle optimisé
    return clustering.fit_predict(X_normalized)



In [None]:
# 3. Simulation de l'évolution temporelle
n_periods = 12
all_data = [load_data(i) for i in range(n_periods)]
all_clusters = [perform_clustering(data) for data in all_data]

# 4. Calcul de l'ARI
ari_scores = [adjusted_rand_score(all_clusters[0], clusters) for clusters in all_clusters]

# 5. Analyse de l'évolution des features
ks_stats = []
for feature in all_data[0].columns:
    ks_stats.append([stats.ks_2samp(all_data[0][feature], data[feature]).statistic for data in all_data])

# 6. Visualisation des résultats
plt.figure(figsize=(12, 6))
plt.plot(range(n_periods), ari_scores)
plt.title("Évolution de l'ARI dans le temps")
plt.xlabel("Période")
plt.ylabel("ARI Score")
plt.show()

plt.figure(figsize=(12, 6))
for i, feature in enumerate(all_data[0].columns):
    plt.plot(range(n_periods), ks_stats[i], label=feature)
plt.title("Évolution de la statistique KS dans le temps")
plt.xlabel("Période")
plt.ylabel("Statistique KS")
plt.legend()
plt.show()

# Affichage des distributions pour chaque feature
for feature in all_data[0].columns:
    plt.figure(figsize=(12, 6))
    for i in [0, n_periods//2, n_periods-1]:  # Début, milieu, fin
        sns.kdeplot(all_data[i][feature], label=f'Période {i}')
    plt.title(f"Évolution de la distribution de {feature}")
    plt.xlabel(feature)
    plt.ylabel("Densité")
    plt.legend()
    plt.show()