# Filtrar la data para Mantenimiento predictivo (Predictive maintenance) = Time To Event Model


* Filtraremos por discos duros que fallaron en el año dado (tanto por conveniencia como por tamaño del archivo).

* Más adelante usaremos estos datos para crear un modelo de regresión: tiempo de falla.

In [1]:
import numpy as np
import pandas as pd

In [3]:
df = pd.read_csv(r'C:\Users\rolft\Documents\UAI\UAI_2020\AP_git\me_code\Prueba_2\data')
print(df.shape)
df.head()

OSError: Initializing from file failed

In [4]:
# drop constant columns
df = df.loc[:, ~df.isnull().all()]
print(df.shape)

(3179295, 91)


In [5]:
# number of hdd
print("number of hdd:", df['serial_number'].value_counts().shape) 

# number of different types of harddrives
print("number of different harddrives", df['model'].value_counts().shape)

number of hdd: (65993,)
number of different harddrives (69,)


# Conservaremos solo los discos duros (HDDs) que fallaron

* Idealmente, usaríamos varios años de datos para más modelos y rango. Hay un gran sesgo aquí cuando no incluimos discos duros que no fallaron.

    * También perdemos la capacidad de identificar discos duros (HDDs) verdaderamente "saludables".

In [6]:
failed_hdds = df.loc[df.failure==1]["serial_number"]
len(failed_hdds)

215

In [7]:
df = df.loc[df["serial_number"].isin(failed_hdds)]
df.shape

(5490, 91)

In [8]:
df["end_date"] = df.groupby("serial_number")["date"].transform("max")

In [13]:
df

Unnamed: 0,date,serial_number,model,capacity_bytes,smart_1_normalized,smart_1_raw,smart_2_normalized,smart_2_raw,smart_3_normalized,smart_3_raw,...,smart_242_raw,smart_250_normalized,smart_250_raw,smart_251_normalized,smart_251_raw,smart_252_normalized,smart_252_raw,smart_254_normalized,smart_254_raw,date_diff
376,2016-01-01,Z300ZST1,ST4000DM000,1.976651e-311,120,240872800,,,91,0,...,9.784107e-313,,,,,,,,,16
1657,2016-01-01,9VY8TCAV,ST3160318AS,7.907120e-313,111,38605541,,,97,0,...,2.076417e-314,,,,,,,,,99
1895,2016-01-01,W300BG0H,ST4000DM000,1.976651e-311,118,190147064,,,91,0,...,6.394443e-313,,,,,,,,,108
2900,2016-01-01,W300J6FX,ST4000DM000,1.976651e-311,115,85258376,,,92,0,...,6.040397e-313,,,,,,,,,99
3204,2016-01-01,Z3014A4S,ST4000DM000,1.976651e-311,116,101976792,,,91,0,...,1.019657e-312,,,,,,,,,9
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3084227,2016-04-28,W0Q6KWV8,ST320LT007,1.581370e-312,117,147958432,,,98,0,...,3.733211e-315,1.0,184044804.0,1.0,358677046.0,1.0,164262565.0,100.0,0.0,0
3100634,2016-04-28,S300XP36,ST4000DM000,1.976651e-311,117,146527232,,,98,0,...,7.902839e-314,,,,,,,,,0
3105860,2016-04-28,W300T2RC,ST4000DM000,1.976651e-311,117,144495808,,,91,0,...,5.084032e-313,,,,,,,,,0
3136939,2016-04-29,Z302A13D,ST4000DM000,1.976651e-311,119,223384952,,,97,0,...,1.112712e-313,,,,,,,,,0


In [10]:
df["end_date"] = pd.to_datetime(df["end_date"])
df["date"] = pd.to_datetime(df["date"])

In [11]:
df["date_diff"] = df["end_date"] - df["date"]
df["date_diff"].describe()

count                       5490
mean     49 days 09:18:25.573770
std      44 days 09:17:21.395230
min              0 days 00:00:00
25%              7 days 00:00:00
50%             21 days 00:00:00
75%             95 days 00:00:00
max            119 days 00:00:00
Name: date_diff, dtype: object

* Parece que las fallas tienen una distribución extraña. tal vez estén agrupados alrededor del inicio / final de un año / trimestre.

* NOTE que dejar la fecha en la fecha dará lugar a una fuga en nuestro modelo si no tenemos cuidado (más adelante en el [mismo] año = mayor probabilidad de falla!

# replace string/object with number
df["date_diff"] = df["date_diff"].dt.days
df.drop(["end_date","failure"],axis=1,inplace=True)
print(df.shape)

# replace string/object with number
df["date_diff"] = df["date_diff"].dt.days
df.drop(["end_date","failure"],axis=1,inplace=True)
print(df.shape)