In [None]:
# Librerías
import warnings
import pandas as pd
import numpy as np
import itertools
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
import time
import pmdarima as pm
from sklearn.metrics import mean_squared_error
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score

from datetime import datetime
pd.set_option('display.max_columns', None)
warnings.filterwarnings('ignore')

# Preparación de datos

In [None]:
disp_df = pd.read_csv('Data/full_devices.csv'
                      , encoding = 'ISO-8859-1'
                     )

In [None]:
# Modificación tipo de datos de fecha
disp_df['date'] = pd.to_datetime(disp_df['date'])
disp_df['failure'] = pd.to_numeric(disp_df['failure'])

# Quitar filas duplicadas
print(disp_df.shape)
disp_df = disp_df.drop_duplicates()
print(disp_df.shape)

# Eliminar registros después del fallo

fallos = disp_df[disp_df['failure'] == 1][['device', 'date']]

for index, row in fallos.iterrows():
    disp_df = disp_df[~((disp_df['device'] == row['device']) & (disp_df['date'] > row['date']))]

print(disp_df.shape)

## Missing Data

In [None]:
# Missing Data

unique_dates = disp_df['date'].sort_values().unique()
unique_devices = disp_df['device'].unique()
all_combinations = pd.DataFrame(list(itertools.product(unique_dates, unique_devices)), columns=['date', 'device'])

disp_df = all_combinations.merge(disp_df, on=['date', 'device'], how='left')

last_date_reported = disp_df[~disp_df['failure'].isna()].groupby('device')['date'].max().reset_index()
last_date_reported.rename(columns={'date': 'last_date_reported'}, inplace=True)

disp_df = disp_df.merge(last_date_reported, on='device')
disp_df = disp_df[disp_df['date'] <= disp_df['last_date_reported']]
disp_df = disp_df.drop(columns=['last_date_reported'])

In [None]:
disp_df.isna().mean()

In [None]:
# Contar la cantidad de registros por día
daily_counts = disp_df.groupby('date')['failure'].agg('count').sort_index()
tick_indices = [0, len(daily_counts) // 2, len(daily_counts) - 1]
tick_labels = [daily_counts.index[i].strftime('%Y-%m') for i in tick_indices]


# Crear el gráfico de barras
plt.figure(figsize=(12, 6))
daily_counts.plot(kind='bar', color='skyblue')
plt.title('Cantidad de Registros de Failure por Día')
plt.xlabel('Fecha')
plt.ylabel('Cantidad de Registros')
plt.xticks(tick_indices, tick_labels, rotation=45)
plt.tight_layout()

# Mostrar el gráfico
plt.show()


In [None]:
# Para valores na de fallo imputar 0

disp_df['failure'] = disp_df['failure'].fillna(0)

# Para los demás utilizar una interpolación cuadrática

disp_df.iloc[:, 3:] = disp_df.iloc[:, 3:].interpolate(method='quadratic')

In [None]:
disp_df.isna().mean()

In [None]:
sns.barplot(x=disp_df['device'].value_counts().value_counts().index[0:20]
                , y=disp_df['device'].value_counts().value_counts()[0:20]
                ,palette='Blues_d'
               )

In [None]:
# Generar dataset para dispositivos nuevos y otro para con historial 

dispositivos_suficientes_datos = disp_df['device'].value_counts()
dispositivos_suficientes_datos = dispositivos_suficientes_datos[dispositivos_suficientes_datos >= 8].index
disp_nuevos_df = disp_df[~disp_df['device'].isin(dispositivos_suficientes_datos)].reset_index(drop = True)
disp_hist_df = disp_df[disp_df['device'].isin(dispositivos_suficientes_datos)].reset_index(drop = True)

print(disp_nuevos_df.shape[0], disp_hist_df.shape[0])

In [None]:
# Estandarizacion
columnas_para_escalar = disp_df.select_dtypes(include=['int64', 'float64']).columns[1:]

scaler = StandardScaler()
disp_hist_df[columnas_para_escalar] = scaler.fit_transform(disp_hist_df[columnas_para_escalar])

In [None]:
# Generacion de variable objetivo
disp_hist_df['next_day_failure'] = pd.to_numeric(disp_hist_df.groupby('device')['failure'].shift(-1).fillna(0))

# EDA

Primero hacemos un eda general para revisar si hay relaciones entre los atributos

In [None]:
# Seleccionar solo las columnas numéricas para el análisis
columnas_numericas = disp_hist_df.select_dtypes(include=['int64', 'float64']).columns

# Calcular estadísticas descriptivas, incluyendo simetría (skewness) y curtosis
numerical_summary = disp_hist_df[columnas_numericas].describe()
skewness = disp_hist_df[columnas_numericas].skew()
kurtosis = disp_hist_df[columnas_numericas].kurtosis()
combined_stats = pd.concat([numerical_summary, pd.DataFrame(skewness, columns=['skewness']).T, pd.DataFrame(kurtosis, columns=['kurtosis']).T], axis=0)

combined_stats

In [None]:
# Correlación
corr = disp_hist_df[columnas_numericas].corr()
matrix = np.triu(corr)

sns.set(style='whitegrid')

plt.figure(figsize=(6, 3))
sns.heatmap(corr
            , annot=True
            , mask=matrix
            , fmt='.2f'
            , cmap='Blues'
           )
plt.title('Matriz de Correlación', fontsize=12)
plt.show()

Se elimina el atributo 8 debido a su correlacion perfecta con el atributo 7.

In [None]:
disp_hist_df.drop('attribute8', axis=1, inplace=True)
disp_hist_df = disp_hist_df.reset_index(drop = True)

In [None]:
columnas_numericas = disp_hist_df.select_dtypes(include=['int64', 'float64']).columns[1:9]


media_diaria_atributos_y_fallo = disp_hist_df.groupby('date')[list(columnas_numericas) + ['next_day_failure']].mean()
fig, axes = plt.subplots(len(columnas_numericas), 1, figsize=(12, 3 * len(columnas_numericas)))

for i, atributo in enumerate(columnas_numericas):
    
    ax = axes[i]
    ax2 = ax.twinx()
    
    # Gráfico de la serie temporal del atributo
    ax.plot(media_diaria_atributos_y_fallo.index, media_diaria_atributos_y_fallo[atributo], label=f'{atributo} ', color='blue')
    ax.set_ylabel(f'{atributo}', color='blue')
    ax.tick_params(axis='y', labelcolor='blue')
    
    # Gráfico de la media de fallos del dia siguiente
    ax2.plot(media_diaria_atributos_y_fallo.index, media_diaria_atributos_y_fallo['next_day_failure'], label='Fallos del Día Siguiente', color='red', linestyle='--')
    ax2.set_ylabel('Fallos del Día Siguiente', color='red')
    ax2.tick_params(axis='y', labelcolor='red')
    
    ax.set_title(f'Análisis Temporal de {atributo} con Media de Fallos')
    ax.legend(loc='upper left')
    ax2.legend(loc='upper right')

plt.tight_layout()
plt.show()


In [None]:
# Correlación
corr = media_diaria_atributos_y_fallo.corr()
matrix = np.triu(corr)

sns.set(style='whitegrid')

plt.figure(figsize=(6, 3))
sns.heatmap(corr
            , annot=True
            , mask=matrix
            , fmt='.2f'
            , cmap='Blues'
           )
plt.title('Matriz de Correlación', fontsize=12)
plt.show()

# Análisis por dispositivo

In [None]:
# Generar dataset por días de fallo

#Dataset con fallo

dias_de_fallo = disp_hist_df[disp_hist_df['failure'] == 1][['device', 'date']]

dataset_fallo_60_dias = pd.DataFrame()

for _, row in dias_de_fallo.iterrows():
    device = row['device']
    fallo_date = row['date']
    start_date = fallo_date - pd.Timedelta(days=60)

    registros = disp_hist_df[(disp_hist_df['device'] == device)
                            & (disp_hist_df['date'] >= start_date)
                            & (disp_hist_df['date'] <= fallo_date)
                           ]
    
    dataset_fallo_60_dias = pd.concat([dataset_fallo_60_dias, registros], axis=0)

dataset_fallo_60_dias.reset_index(drop=True, inplace=True)

# Dataset sin fallo

dispositivos_sin_fallo = disp_hist_df[~disp_hist_df['device'].isin(dias_de_fallo['device'])]['device'].unique()

dataset_sin_fallo_60_dias = pd.DataFrame()

for device in dispositivos_sin_fallo:
    registros_device = disp_hist_df[disp_hist_df['device'] == device]

    ultima_fecha = registros_device['date'].max()
    fecha_inicio = ultima_fecha - pd.Timedelta(days=60)

    registros = registros_device[(registros_device['date'] >= fecha_inicio) & 
                                 (registros_device['date'] <= ultima_fecha)]
    
    dataset_sin_fallo_60_dias = pd.concat([dataset_sin_fallo_60_dias, registros], axis=0)

dataset_sin_fallo_60_dias.reset_index(drop=True, inplace=True)

# Dataset final

dataset_fallo_60_dias['tipo'] = 'Con Fallo'
dataset_sin_fallo_60_dias['tipo'] = 'Sin Fallo'

disp_esc_60_dias_df = pd.concat([dataset_fallo_60_dias, dataset_sin_fallo_60_dias], axis=0)

disp_esc_60_dias_df = disp_esc_60_dias_df.sort_values(by='date').reset_index(drop=True)

ultima_fecha_por_dispositivo = disp_esc_60_dias_df.groupby('device')['date'].max().reset_index()
ultima_fecha_por_dispositivo.columns = ['device', 'last_day_reported']

disp_esc_60_dias_df = disp_esc_60_dias_df.merge(ultima_fecha_por_dispositivo, on='device', how='left')

disp_esc_60_dias_df['days_till_failure_or_last_report'] = pd.to_numeric((disp_esc_60_dias_df['last_day_reported'] - disp_esc_60_dias_df['date']).dt.days)

In [None]:
plt.figure(figsize=(15, 12))

for i, var in enumerate(disp_esc_60_dias_df.columns[3:11]):
    plt.subplot(4, 3, i + 1)
    ax =sns.lineplot(data=disp_esc_60_dias_df
                     ,x='days_till_failure_or_last_report'
                     ,y=var
                     ,hue='tipo'
                    )
    ax.invert_xaxis()
    plt.title(var)
    plt.ylabel('')

plt.tight_layout()
plt.show()

Debido al comportamiento observado se modifican los atributos segun tres grupos identificados:
 - **Variables Constantes:** Los atributos 1 y 3 parecen tener una media constante inferior cuando van a fallar. (Estacionaria)
 - **Variables Crecimiento Constante:** El atributo 6 parece crecer de forma constante hasta la falla (pero a una escala inferior si no falla). (Estacionaria)
 - **Variables con Salto Constantes:** Los atributos 5 y 9 parecen tener un saldo entre los 30 y 40 días. Para estas se revisara la diferencia 40 dias antes. (No Estacionaria)
 - **Variables con Exponencial:** Los atributos 2, 4 y 7 parecen un aumento en los utlimos días que cada vez se acelera mas. (No Estacionaria)

# Modelado

## Generación de Input Serie de Tiempo

In [None]:
# ARIMA Atributos

for atributo in [x for x in list(disp_hist_df.columns) if ('attr' in x) & ('lead' not in x)]:
    for lead in ['lead1', 'lead2', 'lead3']:
        disp_hist_df[atributo + '_' + lead] = np.nan
    print('empieza atributo ', str(atributo))
    start_time = time.time()
    for device in disp_hist_df['device'].unique():
        data_device = disp_hist_df[disp_hist_df['device'] == device][['date', atributo]].set_index('date')
        for date in data_device.index:
            time_delta_days = 10 if atributo in ['attribute2'
                                                 ,'attribute4'
                                                 ,'attribute7'
                                                ] else 50 if atributo in ['attribute5'
                                                                          ,'attribute9'
                                                                         ] else 70 
            train_data = data_device.loc[(date - pd.Timedelta(days=(time_delta_days))):date]
            n = train_data.shape[0]
            n_distinct = train_data[atributo].nunique()
            
            if (n_distinct > 1) & (n > 2):
                model = pm.auto_arima(train_data
                                      , seasonal=False
                                      , stepwise=True
                                      , suppress_warnings=True
                                      , error_action='ignore'
                                     )
            
            for i, lead in enumerate(['lead1', 'lead2', 'lead3']):
                if (n_distinct > 1) & (n > 2):
                    prediction = model.predict(n_periods=(i+1))
                else:
                    prediction = np.nan
                
                if isinstance(prediction, pd.Series):
                    disp_hist_df.loc[(disp_hist_df['date'] == date) & (disp_hist_df['device'] == device)
                                    , atributo + '_lead' + str(i+1)
                                    ] = prediction.iloc[0]
                elif isinstance(prediction, np.ndarray):
                    disp_hist_df.loc[(disp_hist_df['date'] == date) & (disp_hist_df['device'] == device)
                                     , atributo + '_lead' + str(i+1)
                                    ] = prediction[0]
                else:
                    disp_hist_df.loc[(disp_hist_df['date'] == date) & (disp_hist_df['device'] == device)
                                    , atributo + '_lead' + str(i+1)
                                    ] = prediction
            
            end_time = time.time()
    print('Atributo ', atributo, 'terminado en ', str(end_time - start_time), ' segundos')
