In [None]:
import pandas as pd
import numpy as np
import os
from scipy.io import arff

def process_and_save_data_arff(input_path, output_path):
    # Charger le dataset depuis le fichier ARFF
    data, meta = arff.loadarff(input_path)
    df = pd.DataFrame(data)
    
    # Convertir les colonnes de type byte en string si nécessaire
    for column in df.select_dtypes([np.object_]):
        df[column] = df[column].str.decode('utf-8')
    
    # Séparer les caractéristiques (X) et les cibles (Y)
    X = df.iloc[:, :-8].values  # Modifier en fonction de la structure des données
    Y = df.iloc[:, -8:].values  # Modifier en fonction de la structure des données
    
    # Sauvegarder les données dans un fichier compressé
    np.savez_compressed(output_path, X=X, Y=Y)
    print(f"Data saved to {output_path}")

def load_data(file_path):
    # Charger les données depuis le fichier compressé
    data = np.load(file_path)
    return data['X'], data['Y']

# Chemin d'entrée et de sortie
input_path_arff = "data_brut/rf1.arff"
output_path_arff = "processed_data/rf1.npz"

# Créer le dossier de sortie si nécessaire
os.makedirs(os.path.dirname(output_path_arff), exist_ok=True)

# Process et sauvegarde
process_and_save_data_arff(input_path_arff, output_path_arff)

# Exemple d'utilisation du loader
X, Y = load_data(output_path_arff)
print("X shape:", X.shape)
print("Y shape:", Y.shape)

import numpy as np

# Charger le fichier
data = np.load("processed_data/rf1.npz")

# Afficher les clés disponibles
print("Clés disponibles dans le fichier :", list(data.keys()))

# Analyse des valeurs manquantes
for key in data.files:
    array = data[key]
    
    if not isinstance(array, np.ndarray):
        print(f"{key}: Ce n'est pas un tableau numpy.")
        continue

    # Vérification des NaN et Inf uniquement si le type est float
    if np.issubdtype(array.dtype, np.floating):
        nan_count = np.isnan(array).sum()
        inf_count = np.isinf(array).sum()
    else:
        nan_count = inf_count = 0

    print(f"\nClé: {key}")
    print(f"  - Forme: {array.shape}")
    print(f"  - Nombre de NaN: {nan_count}")
    print(f"  - Nombre de Inf: {inf_count}")

    # Si le tableau est 2D, analyse plus fine
    if array.ndim == 2:
        # Nombre de lignes sans aucun NaN
        rows_without_nan = np.sum(~np.isnan(array).any(axis=1))
        print(f"  - Nombre de lignes sans aucun NaN: {rows_without_nan}")

        # Sélectionner une colonne spécifique (ex: colonne 0)
        col_idx = 0  # Modifier cette valeur pour une autre colonne
        if col_idx < array.shape[1]:  # Vérifier que l'index est valide
            nan_in_column = np.isnan(array[:, col_idx]).sum()
            print(f"  - Nombre de NaN dans la colonne {col_idx}: {nan_in_column}")


import numpy as np

# Charger le fichier
data = np.load("processed_data/rf1.npz")

# Dictionnaire pour stocker les données modifiées
modified_data = {}

for key in data.files:
    array = data[key]
    
    if not isinstance(array, np.ndarray):
        print(f"{key}: Ce n'est pas un tableau numpy.")
        modified_data[key] = array
        continue

    print(f"\nTraitement de la clé: {key}")
    
    # Si c'est un tableau 2D avec des nombres flottants
    if array.ndim == 2 and np.issubdtype(array.dtype, np.floating):
        # Remplacement des NaN colonne par colonne
        for col_idx in range(array.shape[1]):
            col = array[:, col_idx]
            if np.isnan(col).any():  # Vérifier s'il y a des NaN
                mean_value = np.nanmean(col)  # Moyenne des valeurs non NaN
                col[np.isnan(col)] = mean_value  # Remplacer NaN par la moyenne
        print(f"  - NaN remplacés par la moyenne dans toutes les colonnes.")
    
    modified_data[key] = array  # Sauvegarde du tableau modifié

# Enregistrer les données modifiées
np.savez("processed_data/rf1.npz", **modified_data)
print("\nFichier enregistré sous 'processed_data/rf1.npz'.")

Data saved to processed_data/rf1.npz
X shape: (9125, 64)
Y shape: (9125, 8)
Clés disponibles dans le fichier : ['X', 'Y']

Clé: X
  - Forme: (9125, 64)
  - Nombre de NaN: 3264
  - Nombre de Inf: 0
  - Nombre de lignes sans aucun NaN: 9005
  - Nombre de NaN dans la colonne 0: 0

Clé: Y
  - Forme: (9125, 8)
  - Nombre de NaN: 0
  - Nombre de Inf: 0
  - Nombre de lignes sans aucun NaN: 9125
  - Nombre de NaN dans la colonne 0: 0

Traitement de la clé: X
  - NaN remplacés par la moyenne dans toutes les colonnes.

Traitement de la clé: Y
  - NaN remplacés par la moyenne dans toutes les colonnes.

Fichier enregistré sous 'processed_data/rf1.npz'.
Clés disponibles dans le fichier : ['X', 'Y']

Clé: X
  - Forme: (9125, 64)
  - Nombre de NaN: 0
  - Nombre de Inf: 0
  - Nombre de lignes sans aucun NaN: 9125
  - Nombre de NaN dans la colonne 0: 0

Clé: Y
  - Forme: (9125, 8)
  - Nombre de NaN: 0
  - Nombre de Inf: 0
  - Nombre de lignes sans aucun NaN: 9125
  - Nombre de NaN dans la colonne 0: 0


In [7]:
import pandas as pd
import numpy as np
import os
from scipy.io import arff

def process_and_save_data_arff(input_path, output_path):
    # Charger le dataset depuis le fichier ARFF
    data, meta = arff.loadarff(input_path)
    df = pd.DataFrame(data)
    
    # Convertir les colonnes de type byte en string si nécessaire
    for column in df.select_dtypes([np.object_]):
        df[column] = df[column].str.decode('utf-8')
    
    # Séparer les caractéristiques (X) et les cibles (Y)
    X = df.iloc[:, :-8].values  # Modifier en fonction de la structure des données
    Y = df.iloc[:, -8:].values  # Modifier en fonction de la structure des données
    
    # Sauvegarder les données dans un fichier compressé
    np.savez_compressed(output_path, X=X, Y=Y)
    print(f"Data saved to {output_path}")

def load_data(file_path):
    # Charger les données depuis le fichier compressé
    data = np.load(file_path)
    return data['X'], data['Y']

# Chemin d'entrée et de sortie
input_path_arff = "data_brut/rf2.arff"
output_path_arff = "processed_data/rf2.npz"

# Créer le dossier de sortie si nécessaire
os.makedirs(os.path.dirname(output_path_arff), exist_ok=True)

# Process et sauvegarde
process_and_save_data_arff(input_path_arff, output_path_arff)

# Exemple d'utilisation du loader
X, Y = load_data(output_path_arff)
print("X shape:", X.shape)
print("Y shape:", Y.shape)

import numpy as np

# Charger le fichier
data = np.load("processed_data/rf2.npz")

# Afficher les clés disponibles
print("Clés disponibles dans le fichier :", list(data.keys()))

# Analyse des valeurs manquantes
for key in data.files:
    array = data[key]
    
    if not isinstance(array, np.ndarray):
        print(f"{key}: Ce n'est pas un tableau numpy.")
        continue

    # Vérification des NaN et Inf uniquement si le type est float
    if np.issubdtype(array.dtype, np.floating):
        nan_count = np.isnan(array).sum()
        inf_count = np.isinf(array).sum()
    else:
        nan_count = inf_count = 0

    print(f"\nClé: {key}")
    print(f"  - Forme: {array.shape}")
    print(f"  - Nombre de NaN: {nan_count}")
    print(f"  - Nombre de Inf: {inf_count}")

    # Si le tableau est 2D, analyse plus fine
    if array.ndim == 2:
        # Nombre de lignes sans aucun NaN
        rows_without_nan = np.sum(~np.isnan(array).any(axis=1))
        print(f"  - Nombre de lignes sans aucun NaN: {rows_without_nan}")

        # Sélectionner une colonne spécifique (ex: colonne 0)
        col_idx = 0  # Modifier cette valeur pour une autre colonne
        if col_idx < array.shape[1]:  # Vérifier que l'index est valide
            nan_in_column = np.isnan(array[:, col_idx]).sum()
            print(f"  - Nombre de NaN dans la colonne {col_idx}: {nan_in_column}")


import numpy as np

# Charger le fichier
data = np.load("processed_data/rf2.npz")

# Dictionnaire pour stocker les données modifiées
modified_data = {}

for key in data.files:
    array = data[key]
    
    if not isinstance(array, np.ndarray):
        print(f"{key}: Ce n'est pas un tableau numpy.")
        modified_data[key] = array
        continue

    print(f"\nTraitement de la clé: {key}")
    
    # Si c'est un tableau 2D avec des nombres flottants
    if array.ndim == 2 and np.issubdtype(array.dtype, np.floating):
        # Remplacement des NaN colonne par colonne
        for col_idx in range(array.shape[1]):
            col = array[:, col_idx]
            if np.isnan(col).any():  # Vérifier s'il y a des NaN
                mean_value = np.nanmean(col)  # Moyenne des valeurs non NaN
                col[np.isnan(col)] = mean_value  # Remplacer NaN par la moyenne
        print(f"  - NaN remplacés par la moyenne dans toutes les colonnes.")
    
    modified_data[key] = array  # Sauvegarde du tableau modifié

# Enregistrer les données modifiées
np.savez("processed_data/rf2.npz", **modified_data)
print("\nFichier enregistré sous 'processed_data/rf2.npz'.")

Data saved to processed_data/rf2.npz
X shape: (9125, 576)
Y shape: (9125, 8)
Clés disponibles dans le fichier : ['X', 'Y']

Clé: X
  - Forme: (9125, 576)
  - Nombre de NaN: 356160
  - Nombre de Inf: 0
  - Nombre de lignes sans aucun NaN: 7679
  - Nombre de NaN dans la colonne 0: 0

Clé: Y
  - Forme: (9125, 8)
  - Nombre de NaN: 0
  - Nombre de Inf: 0
  - Nombre de lignes sans aucun NaN: 9125
  - Nombre de NaN dans la colonne 0: 0

Traitement de la clé: X
  - NaN remplacés par la moyenne dans toutes les colonnes.

Traitement de la clé: Y
  - NaN remplacés par la moyenne dans toutes les colonnes.

Fichier enregistré sous 'processed_data/rf2.npz'.


In [8]:
import pandas as pd
import numpy as np
import os
from scipy.io import arff

def process_and_save_data_arff(input_path, output_path):
    # Charger le dataset depuis le fichier ARFF
    data, meta = arff.loadarff(input_path)
    df = pd.DataFrame(data)
    
    # Convertir les colonnes de type byte en string si nécessaire
    for column in df.select_dtypes([np.object_]):
        df[column] = df[column].str.decode('utf-8')
    
    # Séparer les caractéristiques (X) et les cibles (Y)
    X = df.iloc[:, :-16].values  # Modifier en fonction de la structure des données
    Y = df.iloc[:, -16:].values  # Modifier en fonction de la structure des données
    
    # Sauvegarder les données dans un fichier compressé
    np.savez_compressed(output_path, X=X, Y=Y)
    print(f"Data saved to {output_path}")

def load_data(file_path):
    # Charger les données depuis le fichier compressé
    data = np.load(file_path)
    return data['X'], data['Y']

# Chemin d'entrée et de sortie
input_path_arff = "data_brut/scm1d.arff"
output_path_arff = "processed_data/scm1d.npz"

# Créer le dossier de sortie si nécessaire
os.makedirs(os.path.dirname(output_path_arff), exist_ok=True)

# Process et sauvegarde
process_and_save_data_arff(input_path_arff, output_path_arff)

# Exemple d'utilisation du loader
X, Y = load_data(output_path_arff)
print("X shape:", X.shape)
print("Y shape:", Y.shape)

import numpy as np

# Charger le fichier
data = np.load("processed_data/scm1d.npz")

# Afficher les clés disponibles
print("Clés disponibles dans le fichier :", list(data.keys()))

# Analyse des valeurs manquantes
for key in data.files:
    array = data[key]
    
    if not isinstance(array, np.ndarray):
        print(f"{key}: Ce n'est pas un tableau numpy.")
        continue

    # Vérification des NaN et Inf uniquement si le type est float
    if np.issubdtype(array.dtype, np.floating):
        nan_count = np.isnan(array).sum()
        inf_count = np.isinf(array).sum()
    else:
        nan_count = inf_count = 0

    print(f"\nClé: {key}")
    print(f"  - Forme: {array.shape}")
    print(f"  - Nombre de NaN: {nan_count}")
    print(f"  - Nombre de Inf: {inf_count}")

    # Si le tableau est 2D, analyse plus fine
    if array.ndim == 2:
        # Nombre de lignes sans aucun NaN
        rows_without_nan = np.sum(~np.isnan(array).any(axis=1))
        print(f"  - Nombre de lignes sans aucun NaN: {rows_without_nan}")

        # Sélectionner une colonne spécifique (ex: colonne 0)
        col_idx = 0  # Modifier cette valeur pour une autre colonne
        if col_idx < array.shape[1]:  # Vérifier que l'index est valide
            nan_in_column = np.isnan(array[:, col_idx]).sum()
            print(f"  - Nombre de NaN dans la colonne {col_idx}: {nan_in_column}")


import numpy as np

# Charger le fichier
data = np.load("processed_data/scm1d.npz")

# Dictionnaire pour stocker les données modifiées
modified_data = {}

for key in data.files:
    array = data[key]
    
    if not isinstance(array, np.ndarray):
        print(f"{key}: Ce n'est pas un tableau numpy.")
        modified_data[key] = array
        continue

    print(f"\nTraitement de la clé: {key}")
    
    # Si c'est un tableau 2D avec des nombres flottants
    if array.ndim == 2 and np.issubdtype(array.dtype, np.floating):
        # Remplacement des NaN colonne par colonne
        for col_idx in range(array.shape[1]):
            col = array[:, col_idx]
            if np.isnan(col).any():  # Vérifier s'il y a des NaN
                mean_value = np.nanmean(col)  # Moyenne des valeurs non NaN
                col[np.isnan(col)] = mean_value  # Remplacer NaN par la moyenne
        print(f"  - NaN remplacés par la moyenne dans toutes les colonnes.")
    
    modified_data[key] = array  # Sauvegarde du tableau modifié

# Enregistrer les données modifiées
np.savez("processed_data/scm1d.npz", **modified_data)
print("\nFichier enregistré sous 'processed_data/scm1d.npz'.")

Data saved to processed_data/scm1d.npz
X shape: (9803, 280)
Y shape: (9803, 16)
Clés disponibles dans le fichier : ['X', 'Y']

Clé: X
  - Forme: (9803, 280)
  - Nombre de NaN: 0
  - Nombre de Inf: 0
  - Nombre de lignes sans aucun NaN: 9803
  - Nombre de NaN dans la colonne 0: 0

Clé: Y
  - Forme: (9803, 16)
  - Nombre de NaN: 0
  - Nombre de Inf: 0
  - Nombre de lignes sans aucun NaN: 9803
  - Nombre de NaN dans la colonne 0: 0

Traitement de la clé: X
  - NaN remplacés par la moyenne dans toutes les colonnes.

Traitement de la clé: Y
  - NaN remplacés par la moyenne dans toutes les colonnes.

Fichier enregistré sous 'processed_data/scm1d.npz'.


In [9]:
import pandas as pd
import numpy as np
import os
from scipy.io import arff

def process_and_save_data_arff(input_path, output_path):
    # Charger le dataset depuis le fichier ARFF
    data, meta = arff.loadarff(input_path)
    df = pd.DataFrame(data)
    
    # Convertir les colonnes de type byte en string si nécessaire
    for column in df.select_dtypes([np.object_]):
        df[column] = df[column].str.decode('utf-8')
    
    # Séparer les caractéristiques (X) et les cibles (Y)
    X = df.iloc[:, :-16].values  # Modifier en fonction de la structure des données
    Y = df.iloc[:, -16:].values  # Modifier en fonction de la structure des données
    
    # Sauvegarder les données dans un fichier compressé
    np.savez_compressed(output_path, X=X, Y=Y)
    print(f"Data saved to {output_path}")

def load_data(file_path):
    # Charger les données depuis le fichier compressé
    data = np.load(file_path)
    return data['X'], data['Y']

# Chemin d'entrée et de sortie
input_path_arff = "data_brut/scm20d.arff"
output_path_arff = "processed_data/scm20d.npz"

# Créer le dossier de sortie si nécessaire
os.makedirs(os.path.dirname(output_path_arff), exist_ok=True)

# Process et sauvegarde
process_and_save_data_arff(input_path_arff, output_path_arff)

# Exemple d'utilisation du loader
X, Y = load_data(output_path_arff)
print("X shape:", X.shape)
print("Y shape:", Y.shape)

import numpy as np

# Charger le fichier
data = np.load(output_path_arff)

# Afficher les clés disponibles
print("Clés disponibles dans le fichier :", list(data.keys()))

# Analyse des valeurs manquantes
for key in data.files:
    array = data[key]
    
    if not isinstance(array, np.ndarray):
        print(f"{key}: Ce n'est pas un tableau numpy.")
        continue

    # Vérification des NaN et Inf uniquement si le type est float
    if np.issubdtype(array.dtype, np.floating):
        nan_count = np.isnan(array).sum()
        inf_count = np.isinf(array).sum()
    else:
        nan_count = inf_count = 0

    print(f"\nClé: {key}")
    print(f"  - Forme: {array.shape}")
    print(f"  - Nombre de NaN: {nan_count}")
    print(f"  - Nombre de Inf: {inf_count}")

    # Si le tableau est 2D, analyse plus fine
    if array.ndim == 2:
        # Nombre de lignes sans aucun NaN
        rows_without_nan = np.sum(~np.isnan(array).any(axis=1))
        print(f"  - Nombre de lignes sans aucun NaN: {rows_without_nan}")

        # Sélectionner une colonne spécifique (ex: colonne 0)
        col_idx = 0  # Modifier cette valeur pour une autre colonne
        if col_idx < array.shape[1]:  # Vérifier que l'index est valide
            nan_in_column = np.isnan(array[:, col_idx]).sum()
            print(f"  - Nombre de NaN dans la colonne {col_idx}: {nan_in_column}")


import numpy as np

# Charger le fichier
data = np.load("processed_data/scm20d.npz")

# Dictionnaire pour stocker les données modifiées
modified_data = {}

for key in data.files:
    array = data[key]
    
    if not isinstance(array, np.ndarray):
        print(f"{key}: Ce n'est pas un tableau numpy.")
        modified_data[key] = array
        continue

    print(f"\nTraitement de la clé: {key}")
    
    # Si c'est un tableau 2D avec des nombres flottants
    if array.ndim == 2 and np.issubdtype(array.dtype, np.floating):
        # Remplacement des NaN colonne par colonne
        for col_idx in range(array.shape[1]):
            col = array[:, col_idx]
            if np.isnan(col).any():  # Vérifier s'il y a des NaN
                mean_value = np.nanmean(col)  # Moyenne des valeurs non NaN
                col[np.isnan(col)] = mean_value  # Remplacer NaN par la moyenne
        print(f"  - NaN remplacés par la moyenne dans toutes les colonnes.")
    
    modified_data[key] = array  # Sauvegarde du tableau modifié

# Enregistrer les données modifiées
np.savez("processed_data/scm20d.npz", **modified_data)
print("\nFichier enregistré sous 'processed_data/scm20d.npz'.")

Data saved to processed_data/scm20d.npz
X shape: (8966, 61)
Y shape: (8966, 16)
Clés disponibles dans le fichier : ['X', 'Y']

Clé: X
  - Forme: (8966, 61)
  - Nombre de NaN: 0
  - Nombre de Inf: 0
  - Nombre de lignes sans aucun NaN: 8966
  - Nombre de NaN dans la colonne 0: 0

Clé: Y
  - Forme: (8966, 16)
  - Nombre de NaN: 0
  - Nombre de Inf: 0
  - Nombre de lignes sans aucun NaN: 8966
  - Nombre de NaN dans la colonne 0: 0

Traitement de la clé: X
  - NaN remplacés par la moyenne dans toutes les colonnes.

Traitement de la clé: Y
  - NaN remplacés par la moyenne dans toutes les colonnes.

Fichier enregistré sous 'processed_data/scm20d.npz'.


In [2]:
import pandas as pd
import numpy as np
import os

def process_and_save_data(input_path, output_path):
    # Charger le dataset depuis le fichier CSV
    data = pd.read_csv(input_path)
    
    # Séparer les caractéristiques (X) et les cibles (Y)
    # X = data.drop(data.columns[[1, 2]], axis=1).values
    # X = data.iloc[:, 8:23].values
    # Y = data.iloc[:, [1, 2]].values
    data = data.select_dtypes(include=[np.number])  # Ne garde que les colonnes numériques
    X = data.iloc[:, :-2].values.astype(np.float32)  # Convertir en float
    Y = data.iloc[:, -2:].values.astype(np.float32)  # Convertir en float
    
    # Sauvegarder les données dans un fichier compressé
    np.savez_compressed(output_path, X=X, Y=Y)
    print(f"Data saved to {output_path}")

def load_data(file_path):
    # Charger les données depuis le fichier compressé
    data = np.load(file_path)
    return data['X'], data['Y']

# Chemin d'entrée et de sortie
input_path = "data_brut/Bias_correction_ucl.csv"
output_path = "processed_data/Bias_correction_ucl.npz"

# Créer le dossier de sortie si nécessaire
os.makedirs(os.path.dirname(output_path), exist_ok=True)

# Process et sauvegarde
process_and_save_data(input_path, output_path)

# Exemple d'utilisation du loader
X, Y = load_data(output_path)
print("X shape:", X.shape)
print("Y shape:", Y.shape)

import numpy as np

# Charger le fichier
data = np.load(output_path)

# Afficher les clés disponibles
print("Clés disponibles dans le fichier :", list(data.keys()))

# Analyse des valeurs manquantes
for key in data.files:
    array = data[key]
    
    if not isinstance(array, np.ndarray):
        print(f"{key}: Ce n'est pas un tableau numpy.")
        continue

    # Vérification des NaN et Inf uniquement si le type est float
    if np.issubdtype(array.dtype, np.floating):
        nan_count = np.isnan(array).sum()
        inf_count = np.isinf(array).sum()
    else:
        nan_count = inf_count = 0

    print(f"\nClé: {key}")
    print(f"  - Forme: {array.shape}")
    print(f"  - Nombre de NaN: {nan_count}")
    print(f"  - Nombre de Inf: {inf_count}")

    # Si le tableau est 2D, analyse plus fine
    if array.ndim == 2:
        # Nombre de lignes sans aucun NaN
        rows_without_nan = np.sum(~np.isnan(array).any(axis=1))
        print(f"  - Nombre de lignes sans aucun NaN: {rows_without_nan}")

        # Sélectionner une colonne spécifique (ex: colonne 0)
        col_idx = 0  # Modifier cette valeur pour une autre colonne
        if col_idx < array.shape[1]:  # Vérifier que l'index est valide
            nan_in_column = np.isnan(array[:, col_idx]).sum()
            print(f"  - Nombre de NaN dans la colonne {col_idx}: {nan_in_column}")


import numpy as np

# Charger le fichier
data = np.load(output_path)

# Dictionnaire pour stocker les données modifiées
modified_data = {}

for key in data.files:
    array = data[key]
    
    if not isinstance(array, np.ndarray):
        print(f"{key}: Ce n'est pas un tableau numpy.")
        modified_data[key] = array
        continue

    print(f"\nTraitement de la clé: {key}")
    
    # Si c'est un tableau 2D avec des nombres flottants
    if array.ndim == 2 and np.issubdtype(array.dtype, np.floating):
        # Remplacement des NaN colonne par colonne
        for col_idx in range(array.shape[1]):
            col = array[:, col_idx]
            if np.isnan(col).any():  # Vérifier s'il y a des NaN
                mean_value = np.nanmean(col)  # Moyenne des valeurs non NaN
                col[np.isnan(col)] = mean_value  # Remplacer NaN par la moyenne
        print(f"  - NaN remplacés par la moyenne dans toutes les colonnes.")
    
    modified_data[key] = array  # Sauvegarde du tableau modifié

# Enregistrer les données modifiées
np.savez(output_path, **modified_data)
print(f"\nFichier enregistré sous '{output_path}'.")


# https://archive.ics.uci.edu/dataset/514/bias+correction+of+numerical+prediction+model+temperature+forecast

Data saved to processed_data/Bias_correction_ucl.npz
X shape: (7752, 22)
Y shape: (7752, 2)
Clés disponibles dans le fichier : ['X', 'Y']

Clé: X
  - Forme: (7752, 22)
  - Nombre de NaN: 1192
  - Nombre de Inf: 0
  - Nombre de lignes sans aucun NaN: 7605
  - Nombre de NaN dans la colonne 0: 2

Clé: Y
  - Forme: (7752, 2)
  - Nombre de NaN: 54
  - Nombre de Inf: 0
  - Nombre de lignes sans aucun NaN: 7725
  - Nombre de NaN dans la colonne 0: 27

Traitement de la clé: X
  - NaN remplacés par la moyenne dans toutes les colonnes.

Traitement de la clé: Y
  - NaN remplacés par la moyenne dans toutes les colonnes.

Fichier enregistré sous 'processed_data/Bias_correction_ucl.npz'.


In [3]:
import pandas as pd
import numpy as np
import os

def process_and_save_data(input_path, output_path):
    # Charger le dataset depuis le fichier CSV
    data = pd.read_csv(input_path)
    
    # Séparer les caractéristiques (X) et les cibles (Y)
    # X = data.drop(data.columns[[1, 2]], axis=1).values
    # X = data.iloc[:, 8:23].values
    # Y = data.iloc[:, [1, 2]].values
    data = data.select_dtypes(include=[np.number])  # Ne garde que les colonnes numériques
    X = data.iloc[:, :-2].values.astype(np.float32)  # Convertir en float
    Y = data.iloc[:, -2:].values.astype(np.float32)  # Convertir en float
    
    # Sauvegarder les données dans un fichier compressé
    np.savez_compressed(output_path, X=X, Y=Y)
    print(f"Data saved to {output_path}")

def load_data(file_path):
    # Charger les données depuis le fichier compressé
    data = np.load(file_path)
    return data['X'], data['Y']

# Chemin d'entrée et de sortie
input_path = "data_brut/CASP.csv"
output_path = "processed_data/CASP.npz"

# Créer le dossier de sortie si nécessaire
os.makedirs(os.path.dirname(output_path), exist_ok=True)

# Process et sauvegarde
process_and_save_data(input_path, output_path)

# Exemple d'utilisation du loader
X, Y = load_data(output_path)
print("X shape:", X.shape)
print("Y shape:", Y.shape)

import numpy as np

# Charger le fichier
data = np.load(output_path)

# Afficher les clés disponibles
print("Clés disponibles dans le fichier :", list(data.keys()))

# Analyse des valeurs manquantes
for key in data.files:
    array = data[key]
    
    if not isinstance(array, np.ndarray):
        print(f"{key}: Ce n'est pas un tableau numpy.")
        continue

    # Vérification des NaN et Inf uniquement si le type est float
    if np.issubdtype(array.dtype, np.floating):
        nan_count = np.isnan(array).sum()
        inf_count = np.isinf(array).sum()
    else:
        nan_count = inf_count = 0

    print(f"\nClé: {key}")
    print(f"  - Forme: {array.shape}")
    print(f"  - Nombre de NaN: {nan_count}")
    print(f"  - Nombre de Inf: {inf_count}")

    # Si le tableau est 2D, analyse plus fine
    if array.ndim == 2:
        # Nombre de lignes sans aucun NaN
        rows_without_nan = np.sum(~np.isnan(array).any(axis=1))
        print(f"  - Nombre de lignes sans aucun NaN: {rows_without_nan}")

        # Sélectionner une colonne spécifique (ex: colonne 0)
        col_idx = 0  # Modifier cette valeur pour une autre colonne
        if col_idx < array.shape[1]:  # Vérifier que l'index est valide
            nan_in_column = np.isnan(array[:, col_idx]).sum()
            print(f"  - Nombre de NaN dans la colonne {col_idx}: {nan_in_column}")


import numpy as np

# Charger le fichier
data = np.load(output_path)

# Dictionnaire pour stocker les données modifiées
modified_data = {}

for key in data.files:
    array = data[key]
    
    if not isinstance(array, np.ndarray):
        print(f"{key}: Ce n'est pas un tableau numpy.")
        modified_data[key] = array
        continue

    print(f"\nTraitement de la clé: {key}")
    
    # Si c'est un tableau 2D avec des nombres flottants
    if array.ndim == 2 and np.issubdtype(array.dtype, np.floating):
        # Remplacement des NaN colonne par colonne
        for col_idx in range(array.shape[1]):
            col = array[:, col_idx]
            if np.isnan(col).any():  # Vérifier s'il y a des NaN
                mean_value = np.nanmean(col)  # Moyenne des valeurs non NaN
                col[np.isnan(col)] = mean_value  # Remplacer NaN par la moyenne
        print(f"  - NaN remplacés par la moyenne dans toutes les colonnes.")
    
    modified_data[key] = array  # Sauvegarde du tableau modifié

# Enregistrer les données modifiées
np.savez(output_path, **modified_data)
print(f"\nFichier enregistré sous '{output_path}'.")


# https://github.com/Zhendong-Wang/Probabilistic-Conformal-Prediction/tree/main

Data saved to processed_data/CASP.npz
X shape: (45730, 8)
Y shape: (45730, 2)
Clés disponibles dans le fichier : ['X', 'Y']

Clé: X
  - Forme: (45730, 8)
  - Nombre de NaN: 0
  - Nombre de Inf: 0
  - Nombre de lignes sans aucun NaN: 45730
  - Nombre de NaN dans la colonne 0: 0

Clé: Y
  - Forme: (45730, 2)
  - Nombre de NaN: 0
  - Nombre de Inf: 0
  - Nombre de lignes sans aucun NaN: 45730
  - Nombre de NaN dans la colonne 0: 0

Traitement de la clé: X
  - NaN remplacés par la moyenne dans toutes les colonnes.

Traitement de la clé: Y
  - NaN remplacés par la moyenne dans toutes les colonnes.

Fichier enregistré sous 'processed_data/CASP.npz'.


In [1]:
import pandas as pd
import numpy as np
import os

def process_and_save_data(input_path, output_path):
    # Charger le dataset depuis le fichier CSV
    data = pd.read_csv(input_path)
    
    # Séparer les caractéristiques (X) et les cibles (Y)
    # X = data.drop(data.columns[[1, 2]], axis=1).values
    # X = data.iloc[:, 8:23].values
    # Y = data.iloc[:, [1, 2]].values
    data = data.select_dtypes(include=[np.number])  # Ne garde que les colonnes numériques
    X = data.iloc[:, :-2].values.astype(np.float32)  # Convertir en float
    Y = data.iloc[:, -2:].values.astype(np.float32)  # Convertir en float
    
    # Sauvegarder les données dans un fichier compressé
    np.savez_compressed(output_path, X=X, Y=Y)
    print(f"Data saved to {output_path}")

def load_data(file_path):
    # Charger les données depuis le fichier compressé
    data = np.load(file_path)
    return data['X'], data['Y']

# Chemin d'entrée et de sortie
input_path = "data_brut/taxi.csv"
output_path = "processed_data/taxi.npz"

# Créer le dossier de sortie si nécessaire
os.makedirs(os.path.dirname(output_path), exist_ok=True)

# Process et sauvegarde
process_and_save_data(input_path, output_path)

# Exemple d'utilisation du loader
X, Y = load_data(output_path)
print("X shape:", X.shape)
print("Y shape:", Y.shape)

import numpy as np

# Charger le fichier
data = np.load(output_path)

# Afficher les clés disponibles
print("Clés disponibles dans le fichier :", list(data.keys()))

# Analyse des valeurs manquantes
for key in data.files:
    array = data[key]
    
    if not isinstance(array, np.ndarray):
        print(f"{key}: Ce n'est pas un tableau numpy.")
        continue

    # Vérification des NaN et Inf uniquement si le type est float
    if np.issubdtype(array.dtype, np.floating):
        nan_count = np.isnan(array).sum()
        inf_count = np.isinf(array).sum()
    else:
        nan_count = inf_count = 0

    print(f"\nClé: {key}")
    print(f"  - Forme: {array.shape}")
    print(f"  - Nombre de NaN: {nan_count}")
    print(f"  - Nombre de Inf: {inf_count}")

    # Si le tableau est 2D, analyse plus fine
    if array.ndim == 2:
        # Nombre de lignes sans aucun NaN
        rows_without_nan = np.sum(~np.isnan(array).any(axis=1))
        print(f"  - Nombre de lignes sans aucun NaN: {rows_without_nan}")

        # Sélectionner une colonne spécifique (ex: colonne 0)
        col_idx = 0  # Modifier cette valeur pour une autre colonne
        if col_idx < array.shape[1]:  # Vérifier que l'index est valide
            nan_in_column = np.isnan(array[:, col_idx]).sum()
            print(f"  - Nombre de NaN dans la colonne {col_idx}: {nan_in_column}")


import numpy as np

# Charger le fichier
data = np.load(output_path)

# Dictionnaire pour stocker les données modifiées
modified_data = {}

for key in data.files:
    array = data[key]
    
    if not isinstance(array, np.ndarray):
        print(f"{key}: Ce n'est pas un tableau numpy.")
        modified_data[key] = array
        continue

    print(f"\nTraitement de la clé: {key}")
    
    # Si c'est un tableau 2D avec des nombres flottants
    if array.ndim == 2 and np.issubdtype(array.dtype, np.floating):
        # Remplacement des NaN colonne par colonne
        for col_idx in range(array.shape[1]):
            col = array[:, col_idx]
            if np.isnan(col).any():  # Vérifier s'il y a des NaN
                mean_value = np.nanmean(col)  # Moyenne des valeurs non NaN
                col[np.isnan(col)] = mean_value  # Remplacer NaN par la moyenne
        print(f"  - NaN remplacés par la moyenne dans toutes les colonnes.")
    
    modified_data[key] = array  # Sauvegarde du tableau modifié

# Enregistrer les données modifiées
np.savez(output_path, **modified_data)
print(f"\nFichier enregistré sous '{output_path}'.")


# https://github.com/Zhendong-Wang/Probabilistic-Conformal-Prediction/tree/main

# https://github.com/Vekteur/multi-output-conformal-regression



Data saved to processed_data/taxi.npz
X shape: (61286, 6)
Y shape: (61286, 2)
Clés disponibles dans le fichier : ['X', 'Y']

Clé: X
  - Forme: (61286, 6)
  - Nombre de NaN: 0
  - Nombre de Inf: 0
  - Nombre de lignes sans aucun NaN: 61286
  - Nombre de NaN dans la colonne 0: 0

Clé: Y
  - Forme: (61286, 2)
  - Nombre de NaN: 0
  - Nombre de Inf: 0
  - Nombre de lignes sans aucun NaN: 61286
  - Nombre de NaN dans la colonne 0: 0

Traitement de la clé: X
  - NaN remplacés par la moyenne dans toutes les colonnes.

Traitement de la clé: Y
  - NaN remplacés par la moyenne dans toutes les colonnes.

Fichier enregistré sous 'processed_data/taxi.npz'.


In [4]:
import pandas as pd
import numpy as np
import os

def process_and_save_data(input_path, output_path):
    # Charger le dataset depuis le fichier CSV
    data = pd.read_csv(input_path)
    
    # Séparer les caractéristiques (X) et les cibles (Y)
    # X = data.drop(data.columns[[1, 2]], axis=1).values
    # X = data.iloc[:, 8:23].values
    # Y = data.iloc[:, [1, 2]].values
    data = data.select_dtypes(include=[np.number])  # Ne garde que les colonnes numériques
    # drop the ID column
    data = data.drop(data.columns[0], axis=1)
    price_index = data.columns.get_loc("price")
    long_index = data.columns.get_loc("long")

    # Sélectionnez les colonnes "price" et "long" pour Y
    Y = data.iloc[:, [price_index, long_index]].values.astype(np.float32)

    # Sélectionnez le reste des colonnes pour X
    X = data.drop(columns=["price", "long"]).values.astype(np.float32)
    
    # Sauvegarder les données dans un fichier compressé
    np.savez_compressed(output_path, X=X, Y=Y)
    print(f"Data saved to {output_path}")

def load_data(file_path):
    # Charger les données depuis le fichier compressé
    data = np.load(file_path)
    return data['X'], data['Y']

# Chemin d'entrée et de sortie
input_path = "data_brut/house.csv"
output_path = "processed_data/house.npz"

# Créer le dossier de sortie si nécessaire
os.makedirs(os.path.dirname(output_path), exist_ok=True)

# Process et sauvegarde
process_and_save_data(input_path, output_path)

# Exemple d'utilisation du loader
X, Y = load_data(output_path)
print("X shape:", X.shape)
print("Y shape:", Y.shape)

import numpy as np

# Charger le fichier
data = np.load(output_path)

# Afficher les clés disponibles
print("Clés disponibles dans le fichier :", list(data.keys()))

# Analyse des valeurs manquantes
for key in data.files:
    array = data[key]
    
    if not isinstance(array, np.ndarray):
        print(f"{key}: Ce n'est pas un tableau numpy.")
        continue

    # Vérification des NaN et Inf uniquement si le type est float
    if np.issubdtype(array.dtype, np.floating):
        nan_count = np.isnan(array).sum()
        inf_count = np.isinf(array).sum()
    else:
        nan_count = inf_count = 0

    print(f"\nClé: {key}")
    print(f"  - Forme: {array.shape}")
    print(f"  - Nombre de NaN: {nan_count}")
    print(f"  - Nombre de Inf: {inf_count}")

    # Si le tableau est 2D, analyse plus fine
    if array.ndim == 2:
        # Nombre de lignes sans aucun NaN
        rows_without_nan = np.sum(~np.isnan(array).any(axis=1))
        print(f"  - Nombre de lignes sans aucun NaN: {rows_without_nan}")

        # Sélectionner une colonne spécifique (ex: colonne 0)
        col_idx = 0  # Modifier cette valeur pour une autre colonne
        if col_idx < array.shape[1]:  # Vérifier que l'index est valide
            nan_in_column = np.isnan(array[:, col_idx]).sum()
            print(f"  - Nombre de NaN dans la colonne {col_idx}: {nan_in_column}")


import numpy as np

# Charger le fichier
data = np.load(output_path)

# Dictionnaire pour stocker les données modifiées
modified_data = {}

for key in data.files:
    array = data[key]
    
    if not isinstance(array, np.ndarray):
        print(f"{key}: Ce n'est pas un tableau numpy.")
        modified_data[key] = array
        continue

    print(f"\nTraitement de la clé: {key}")
    
    # Si c'est un tableau 2D avec des nombres flottants
    if array.ndim == 2 and np.issubdtype(array.dtype, np.floating):
        # Remplacement des NaN colonne par colonne
        for col_idx in range(array.shape[1]):
            col = array[:, col_idx]
            if np.isnan(col).any():  # Vérifier s'il y a des NaN
                mean_value = np.nanmean(col)  # Moyenne des valeurs non NaN
                col[np.isnan(col)] = mean_value  # Remplacer NaN par la moyenne
        print(f"  - NaN remplacés par la moyenne dans toutes les colonnes.")
    
    modified_data[key] = array  # Sauvegarde du tableau modifié

# Enregistrer les données modifiées
np.savez(output_path, **modified_data)
print(f"\nFichier enregistré sous '{output_path}'.")


# https://github.com/Zhendong-Wang/Probabilistic-Conformal-Prediction/tree/main

# https://github.com/Vekteur/multi-output-conformal-regression



Data saved to processed_data/house.npz
X shape: (21613, 17)
Y shape: (21613, 2)
Clés disponibles dans le fichier : ['X', 'Y']

Clé: X
  - Forme: (21613, 17)
  - Nombre de NaN: 0
  - Nombre de Inf: 0
  - Nombre de lignes sans aucun NaN: 21613
  - Nombre de NaN dans la colonne 0: 0

Clé: Y
  - Forme: (21613, 2)
  - Nombre de NaN: 0
  - Nombre de Inf: 0
  - Nombre de lignes sans aucun NaN: 21613
  - Nombre de NaN dans la colonne 0: 0

Traitement de la clé: X
  - NaN remplacés par la moyenne dans toutes les colonnes.

Traitement de la clé: Y
  - NaN remplacés par la moyenne dans toutes les colonnes.

Fichier enregistré sous 'processed_data/house.npz'.


In [5]:
import pandas as pd
import numpy as np
import os

def process_and_save_data(input_path, output_path):
    # Charger le dataset depuis le fichier CSV
    data = pd.read_csv(input_path)
    
    # Séparer les caractéristiques (X) et les cibles (Y)
    # X = data.drop(data.columns[[1, 2]], axis=1).values
    # X = data.iloc[:, 8:23].values
    # Y = data.iloc[:, [1, 2]].values
    data = data.select_dtypes(include=[np.number])  # Ne garde que les colonnes numériques
    X = data.iloc[:, :-2].values.astype(np.float32)  # Convertir en float
    Y = data.iloc[:, -2:].values.astype(np.float32)  # Convertir en float
    
    # Sauvegarder les données dans un fichier compressé
    np.savez_compressed(output_path, X=X, Y=Y)
    print(f"Data saved to {output_path}")

def load_data(file_path):
    # Charger les données depuis le fichier compressé
    data = np.load(file_path)
    return data['X'], data['Y']

# Chemin d'entrée et de sortie
input_path = "data_brut/energy.csv"
output_path = "processed_data/energy.npz"

# Créer le dossier de sortie si nécessaire
os.makedirs(os.path.dirname(output_path), exist_ok=True)

# Process et sauvegarde
process_and_save_data(input_path, output_path)

# Exemple d'utilisation du loader
X, Y = load_data(output_path)
print("X shape:", X.shape)
print("Y shape:", Y.shape)

import numpy as np

# Charger le fichier
data = np.load(output_path)

# Afficher les clés disponibles
print("Clés disponibles dans le fichier :", list(data.keys()))

# Analyse des valeurs manquantes
for key in data.files:
    array = data[key]
    
    if not isinstance(array, np.ndarray):
        print(f"{key}: Ce n'est pas un tableau numpy.")
        continue

    # Vérification des NaN et Inf uniquement si le type est float
    if np.issubdtype(array.dtype, np.floating):
        nan_count = np.isnan(array).sum()
        inf_count = np.isinf(array).sum()
    else:
        nan_count = inf_count = 0

    print(f"\nClé: {key}")
    print(f"  - Forme: {array.shape}")
    print(f"  - Nombre de NaN: {nan_count}")
    print(f"  - Nombre de Inf: {inf_count}")

    # Si le tableau est 2D, analyse plus fine
    if array.ndim == 2:
        # Nombre de lignes sans aucun NaN
        rows_without_nan = np.sum(~np.isnan(array).any(axis=1))
        print(f"  - Nombre de lignes sans aucun NaN: {rows_without_nan}")

        # Sélectionner une colonne spécifique (ex: colonne 0)
        col_idx = 0  # Modifier cette valeur pour une autre colonne
        if col_idx < array.shape[1]:  # Vérifier que l'index est valide
            nan_in_column = np.isnan(array[:, col_idx]).sum()
            print(f"  - Nombre de NaN dans la colonne {col_idx}: {nan_in_column}")


import numpy as np

# Charger le fichier
data = np.load(output_path)

# Dictionnaire pour stocker les données modifiées
modified_data = {}

for key in data.files:
    array = data[key]
    
    if not isinstance(array, np.ndarray):
        print(f"{key}: Ce n'est pas un tableau numpy.")
        modified_data[key] = array
        continue

    print(f"\nTraitement de la clé: {key}")
    
    # Si c'est un tableau 2D avec des nombres flottants
    if array.ndim == 2 and np.issubdtype(array.dtype, np.floating):
        # Remplacement des NaN colonne par colonne
        for col_idx in range(array.shape[1]):
            col = array[:, col_idx]
            if np.isnan(col).any():  # Vérifier s'il y a des NaN
                mean_value = np.nanmean(col)  # Moyenne des valeurs non NaN
                col[np.isnan(col)] = mean_value  # Remplacer NaN par la moyenne
        print(f"  - NaN remplacés par la moyenne dans toutes les colonnes.")
    
    modified_data[key] = array  # Sauvegarde du tableau modifié

# Enregistrer les données modifiées
np.savez(output_path, **modified_data)
print(f"\nFichier enregistré sous '{output_path}'.")


# https://github.com/Zhendong-Wang/Probabilistic-Conformal-Prediction/tree/main

# https://github.com/Vekteur/multi-output-conformal-regression



Data saved to processed_data/energy.npz
X shape: (768, 8)
Y shape: (768, 2)
Clés disponibles dans le fichier : ['X', 'Y']

Clé: X
  - Forme: (768, 8)
  - Nombre de NaN: 0
  - Nombre de Inf: 0
  - Nombre de lignes sans aucun NaN: 768
  - Nombre de NaN dans la colonne 0: 0

Clé: Y
  - Forme: (768, 2)
  - Nombre de NaN: 0
  - Nombre de Inf: 0
  - Nombre de lignes sans aucun NaN: 768
  - Nombre de NaN dans la colonne 0: 0

Traitement de la clé: X
  - NaN remplacés par la moyenne dans toutes les colonnes.

Traitement de la clé: Y
  - NaN remplacés par la moyenne dans toutes les colonnes.

Fichier enregistré sous 'processed_data/energy.npz'.
