In [1]:
import pandas as pd
import os
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt


In [2]:
# Chemin vers les données
data_path = 'C:\\Users\\pc\\Desktop\\data'

# Fonction pour charger un fichier CSV
def load_csv(file_path):
    return pd.read_csv(file_path)

# Fonction pour prétraiter les données
def preprocess_data(files):
    features_list = []
    target_list = []
    
    for file in files:
        data = load_csv(file)
        
        # Supprimer les lignes avec des valeurs NaN
        data = data.dropna()
        
        # Préparation des données
        features = data[['Data_Point', 'Test_Time', 'Step_Time', 'Step_Index', 'Cycle_Index', 
                         'Current', 'Voltage', 'Charge_Capacity', 'Charge_Energy', 'Discharge_Energy', 
                         'dV/dt', 'Internal_Resistance', 'Temperature']]
        target = data['Discharge_Capacity']
        
        features_list.append(features)
        target_list.append(target)
    
    # Concaténer toutes les données
    features = pd.concat(features_list, ignore_index=True)
    target = pd.concat(target_list, ignore_index=True)
    
    return features, target


In [3]:
# Obtenir la liste des fichiers CSV dans les trois batchs
batch1_files = [os.path.join(data_path, 'batch 1', f) for f in os.listdir(os.path.join(data_path, 'batch 1')) if f.endswith('.csv')]
batch2_files = [os.path.join(data_path, 'batch 2', f) for f in os.listdir(os.path.join(data_path, 'batch 2')) if f.endswith('.csv')]
batch3_files = [os.path.join(data_path, 'batch 3', f) for f in os.listdir(os.path.join(data_path, 'batch 3')) if f.endswith('.csv')]

# Diviser les fichiers en ensembles d'entraînement et de test
train_files = batch1_files[:8] + batch2_files[:3] + batch3_files[:3]
test_files = batch1_files[8:] + batch2_files[3:] + batch3_files[3:]

# Prétraiter les fichiers d'entraînement
train_features, train_target = preprocess_data(train_files)

# Prétraiter les fichiers de test
test_features, test_target = preprocess_data(test_files)


In [4]:
# Normaliser les données
scaler = StandardScaler()
train_features = scaler.fit_transform(train_features)
test_features = scaler.transform(test_features)

# Diviser les données d'entraînement en ensembles d'entraînement et de validation
X_train, X_val, y_train, y_val = train_test_split(train_features, train_target, test_size=0.2, random_state=42)

# Afficher les statistiques de base
print("Train features shape:", X_train.shape)
print("Validation features shape:", X_val.shape)
print("Test features shape:", test_features.shape)


Train features shape: (15243941, 13)
Validation features shape: (3810986, 13)
Test features shape: (2123914, 13)
