In [1]:
# %% [code]
# Importamos las librerías necesarias para el preprocesamiento
import pandas as pd            # Para manipulación de dataframes
import numpy as np             # Para operaciones numéricas
from sklearn.preprocessing import StandardScaler  # Para escalar variables

# Configuramos la visualización de pandas para ver todas las columnas si es necesario
pd.set_option('display.max_columns', None)

In [2]:
# %% [code]
# Definimos la ruta del archivo original
raw_data_path = r"D:\gzo\myProjects\dataAnalyst\projects\predictive_maintenance_01\data\raw\machine_data.csv"  # Ruta del archivo de datos crudos

# Cargamos el dataset en un DataFrame
df = pd.read_csv(raw_data_path)

# Mostramos las primeras filas para verificar la carga correcta
df.head()

Unnamed: 0,machine_id,operating_hours,temperature,vibration,pressure,humidity,failure_type,maintenance_required
0,1,7370,117.989253,9.272273,179.678009,65.729146,No Failure,0
1,2,960,152.649298,8.174648,51.389699,70.962156,Overheat,1
2,3,5490,103.987105,7.477472,186.086141,54.177795,No Failure,0
3,4,5291,150.170933,3.413527,28.545619,52.012385,No Failure,0
4,5,5834,56.089398,0.738455,166.832907,34.780509,No Failure,0


In [3]:
# %% [code]
# Eliminamos filas duplicadas, si existen
df = df.drop_duplicates()  # Elimina duplicados del DataFrame

# Rellenamos o eliminamos valores nulos
# En este ejemplo, se rellenan con la media para columnas numéricas y la moda para categóricas
# Iteramos sobre cada columna para manejar valores nulos correctamente
for col in df.columns:
    if df[col].dtype in ['float64', 'int64']:
        df[col] = df[col].fillna(df[col].mean())  # Sustituimos valores nulos con la media
    else:
        df[col] = df[col].fillna(df[col].mode()[0])  # Sustituimos valores nulos con la moda

# Verificamos nuevamente la existencia de valores nulos
print("Valores nulos después del preprocesamiento:")
print(df.isnull().sum())


Valores nulos después del preprocesamiento:
machine_id              0
operating_hours         0
temperature             0
vibration               0
pressure                0
humidity                0
failure_type            0
maintenance_required    0
dtype: int64


In [4]:
# %% [code]
# Si se requiere, se pueden transformar variables categóricas a numéricas
# Por ejemplo, si existe una columna 'status' con valores categóricos:
# df['status'] = df['status'].map({'operativo': 0, 'fallo': 1})

# Seleccionamos columnas numéricas para escalar
num_cols = df.select_dtypes(include=['float64', 'int64']).columns

# Creamos una instancia de StandardScaler para normalizar los datos
scaler = StandardScaler()

# Aplicamos el escalado a las columnas numéricas
df[num_cols] = scaler.fit_transform(df[num_cols])  # fit_transform ajusta y transforma los datos

# Verificamos el resultado de la transformación
df.head()


Unnamed: 0,machine_id,operating_hours,temperature,vibration,pressure,humidity,failure_type,maintenance_required
0,-1.731878,0.826546,-0.156917,1.461389,1.377266,0.517589,No Failure,-0.424359
1,-1.731531,-1.421065,0.647928,1.078379,-0.970373,0.776294,Overheat,2.356497
2,-1.731185,0.16734,-0.482063,0.835104,1.494533,-0.053476,No Failure,-0.424359
3,-1.730838,0.097563,0.590378,-0.582986,-1.388413,-0.160527,No Failure,-0.424359
4,-1.730492,0.287961,-1.594302,-1.516436,1.142205,-1.012421,No Failure,-0.424359


In [5]:
# %% [code]
# Definimos la ruta donde se guardará el dataset procesado
processed_data_path = r"D:\gzo\myProjects\dataAnalyst\projects\predictive_maintenance_01\data\processed\processed_machine_data.csv"

# Guardamos el DataFrame procesado en un archivo CSV sin incluir el índice
df.to_csv(processed_data_path, index=False)  # index=False para no guardar el índice en el CSV

print("Dataset procesado guardado en:", processed_data_path)


Dataset procesado guardado en: D:\gzo\myProjects\dataAnalyst\projects\predictive_maintenance_01\data\processed\processed_machine_data.csv
