# Imports

In [None]:
import polars as pl
import json
import pandas as pd
from tqdm import tqdm
import numpy as np

In [None]:
with open('../params.json', 'r') as file :
    params = json.load(file)

DATASET, VERSION, DATA_FOLD = params['dataset'], params['version'], params['data_folder']

print(f'Working on {DATASET} dataset {VERSION}')

In [None]:
df = pl.read_parquet(f'{DATA_FOLD}/{VERSION}/3.analysis/imputation_48/{DATASET}/first_48h.parquet').to_pandas()

In [None]:
df.head()

# Window selection

In [None]:
results = {}

# tqdm sur la boucle principale
for n in tqdm(range(1, 49), desc="Calcul en cours", unit="taille"):
    count = 0

    # Optionnel : on peut aussi suivre la progression interne des groupes
    for _, group in df.groupby('encounterId'):
        group_sorted = group.sort_values('intervalle')
        complete = (group_sorted['total_missing'] == 0).astype(int).to_numpy()
        
        rolling_sums = pd.Series(complete).rolling(window=n).sum()
        count += (rolling_sums == n).sum()

    results[n] = count

# Affichage des résultats
for n, cnt in results.items():
    print(f"{n} : {cnt}")


In [None]:
import matplotlib.pyplot as plt

# Si ce n'est pas déjà fait : results = {n: count} calculé auparavant

# Extraire les valeurs pour le graphique
n_values = list(results.keys())
interval_counts = list(results.values())

# Tracer le graphique
plt.figure(figsize=(10, 6))
plt.plot(n_values, interval_counts, marker='o', linestyle='-', color='royalblue')
#plt.title("Nombre d'intervalles complets selon la taille de la fenêtre", fontsize=14)
plt.xlabel("Taille de l'intervalle (n timestamps consécutifs)", fontsize=12)
plt.ylabel("Nombre d'intervalles complets", fontsize=12)
plt.grid(True)
plt.xticks(range(0, 49, 2))  # pour lisibilité
plt.tight_layout()
plt.show()

## Dataset séries temporelles

On choisit des séries de 9 timestamps

In [None]:
# Les features à utiliser pour le clustering
features = ['heart_rate', 'spo2', 'fr', 'pam']

# Trier le DataFrame par encounterid et par intervalle
df_sorted = df.sort_values(by=['encounterId', 'intervalle'])

# Initialiser la liste qui contiendra les fenêtres et le compteur pour tsId
windows_list = []  # Pour stocker les fenêtres sous forme d'array NumPy
ts_ids = []        # Optionnel : pour garder une trace des tsId
ts_counter = 0

# Parcourir chaque groupe d'éncounters avec une barre de progression
for encounter_id, group in tqdm(df_sorted.groupby('encounterId'), desc="Processing encounters"):
    group_sorted = group.sort_values('intervalle').reset_index(drop=True)
    
    # Convertir les colonnes d'intérêt en array NumPy pour tout le groupe
    group_array = group_sorted[features].to_numpy()
    n = group_array.shape[0]
    
    # Glisser une fenêtre de 9 timestamps sur le groupe
    for i in range(n - 8):
        window = group_array[i:i+9]  # Fenêtre de taille 9 x len(features)
        # Vérifier rapidement s'il y a des NaN dans la fenêtre
        if np.isnan(window).any():
            continue
        windows_list.append(window)
        ts_ids.append(ts_counter)  # Ici, ts_ids est un simple identifiant numérique
        ts_counter += 1

# Empiler toutes les fenêtres pour obtenir un array 3D de forme (nb_series, 9, 4)
array_3d = np.stack(windows_list, axis=0)
print("Nombre de séries temporelles retenues :", array_3d.shape[0])
print("Dimensions de X :", array_3d.shape)

In [None]:
from tslearn.clustering import TimeSeriesKMeans

n_clusters = 3
model = TimeSeriesKMeans(n_clusters=n_clusters, metric='dtw', random_state=42)

# Clustering avec tslearn
clusters = model.fit_predict(array_3d)

# Itération par cluster
for cluster_idx in range(n_clusters):
    plt.figure(figsize=(10, 5))
    plt.title(f"Séries temporelles du Cluster {cluster_idx}")
    # Utilisation de tqdm pour suivre l'itération sur les séries de ce cluster
    for serie in tqdm(array_3d[clusters == cluster_idx],
                      desc=f"Plotting cluster {cluster_idx}",
                      leave=False):
        plt.plot(serie, alpha=0.3)
    plt.xlabel("Timestamp")
    plt.ylabel("Valeurs")
    plt.show()