In [8]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Paso 1: Cargar y preparar los datos
datasets = [
    'appliance_usage_data1.csv',
    'appliance_usage_data2.csv',
    'appliance_usage_data3.csv',
    'appliance_usage_data4.csv',
    'appliance_usage_data5.csv',
    'appliance_usage_data6.csv',
    'appliance_usage_data7.csv',
    'appliance_usage_data8.csv',
    'appliance_usage_data9.csv',
    'appliance_usage_data10.csv',
    'appliance_usage_data11.csv',
    'appliance_usage_data12.csv',
    'appliance_usage_data13.csv',
    'appliance_usage_data14.csv',
    'appliance_usage_data15.csv',
    'appliance_usage_data16.csv',
    'appliance_usage_data17.csv',
    'appliance_usage_data18.csv',
    'appliance_usage_data19.csv',
    'appliance_usage_data20.csv',
]

# Crear una lista vacía para almacenar los datos de todos los datasets
X = []
y = []

# Iterar sobre los datasets y cargar los datos
for dataset in datasets:
    data = pd.read_csv(dataset)
    X.append(data[['Fecha', 'Hora', 'Watts usados']])
    y.append(data['Reporte de fallo'])

# Concatenar los datos de todos los datasets
X = pd.concat(X)
y = pd.concat(y)

# Convertir la fecha a formato datetime y extraer la hora del día y el día del año
X['Fecha'] = pd.to_datetime(X['Fecha'])
X['HoraDelDia'] = X['Fecha'].dt.hour
X['DiaDelAño'] = X['Fecha'].dt.dayofyear
X = X.drop(columns=['Fecha'])

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Paso 2: Preprocesamiento de datos
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Paso 3: Crear y entrenar el modelo de clasificación
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Paso 4: Evaluar el modelo
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Precisión en el conjunto de prueba: {accuracy}')

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Paso 1: Cargar y preparar los datos
data = pd.read_csv('appliance_usage_data1.csv')
X = data[['Fecha', 'Hora']]
y = data['Reporte de fallo']

# Convertir la fecha a formato datetime y extraer la hora del día y el día del año
X['Fecha'] = pd.to_datetime(X['Fecha'])
X['HoraDelDia'] = X['Fecha'].dt.hour
X['DiaDelAño'] = X['Fecha'].dt.dayofyear
X = X.drop(columns=['Fecha'])

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Paso 2: Preprocesamiento de datos
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Paso 3: Crear y entrenar el modelo de clasificación
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Paso 4: Evaluar el modelo
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Precisión en el conjunto de prueba: {accuracy}')

In [11]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import precision_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score

# Importar el módulo SMOTE
from imblearn.over_sampling import SMOTE

# Carga los datasets
datasets = [
    'appliance_usage_data1.csv',
    'appliance_usage_data2.csv',
    'appliance_usage_data3.csv',
    'appliance_usage_data4.csv',
    'appliance_usage_data5.csv',
    'appliance_usage_data6.csv',
    'appliance_usage_data7.csv',
    'appliance_usage_data8.csv',
    'appliance_usage_data9.csv',
    'appliance_usage_data10.csv',
    'appliance_usage_data11.csv',
    'appliance_usage_data12.csv',
    'appliance_usage_data13.csv',
    'appliance_usage_data14.csv',
    'appliance_usage_data15.csv',
    'appliance_usage_data16.csv',
    'appliance_usage_data17.csv',
    'appliance_usage_data18.csv',
    'appliance_usage_data19.csv',
    'appliance_usage_data20.csv',
]

# Crear una lista vacía para almacenar los datos de todos los datasets
X = []
y = []

# Iterar sobre los datasets y cargar los datos
for dataset in datasets:
    data = pd.read_csv(dataset)
    X.append(data[['Fecha', 'Hora']])
    y.append(data['Reporte de fallo'])

# Concatenando los datos de todos los datasets
X = pd.concat(X)
y = pd.concat(y)

# Convertir la fecha a formato datetime y extraer la hora del día y el día del año
X['Fecha'] = pd.to_datetime(X['Fecha'])
X['HoraDelDia'] = X['Fecha'].dt.hour
X['DiaDelAño'] = X['Fecha'].dt.dayofyear
X = X.drop(columns=['Fecha'])

# Dividiendo los datos en un conjunto de entrenamiento y un conjunto de pruebas
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Sobremuestrear los datos de entrenamiento
smote = SMOTE()
X_train_resampled, y_train_resampled = smote.fit_resample(X_train, y_train)

# Entrenar el modelo de regresión logística en los datos de entrenamiento sobremuestreados
model = LogisticRegression()
model.fit(X_train_resampled, y_train_resampled)

# Hacer predicciones en el conjunto de pruebas
y_pred = model.predict(X_test)

# Calcular las métricas de precisión, F1 score y AUC
precision = precision_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
auc = roc_auc_score(y_test, y_pred)

# Imprimiendo las métricas
print("Precisión: ", precision)
print("F1 score: ", f1)
print("AUC: ", auc)

Precisión:  0.5001275718818489
F1 score:  0.665358682473168
AUC:  0.500075653209924
