In [1]:
import pandas as pd
from pymongo import  MongoClient
from sklearn.model_selection import train_test_split
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import RBF, ConstantKernel as C, ExpSineSquared, Matern
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import joblib
from azure.storage.blob import BlobServiceClient, BlobClient, ContainerClient
from datetime import datetime
import numpy as np
import matplotlib.pyplot as plt
import os

In [2]:
def connect_to_mongo():
    cs = '''mongodb+srv://pymesadmin:Barcel0na1978$@mongodb-uees-vcore.mongocluster.cosmos.azure.com/gestion_inventarios?tls=true&authMechanism=SCRAM-SHA-256&retrywrites=false&maxIdleTimeMS=120000%60'''
    try:
        client = MongoClient(cs)
        client.admin.command('ping')
        print("Connected to MongoDB successfully!")
        return client
    except Exception as e:
        print(f"An error occurred: {e}")
        return None

def borrar_archivos_pkl(ruta):
    if os.path.exists(ruta) and os.path.isdir(ruta):
        for archivo in os.listdir(ruta):
            if archivo.endswith(".pkl"):
                archivo_completo = os.path.join(ruta, archivo)
                os.remove(archivo_completo)
                print(f"Archivo eliminado: {archivo_completo}")
    else:
        print("La ruta no existe o no es un directorio válido.")

def insert_training(database, sku, mae, rmse, rs, start, end, fecha_quiebre, prediccion, incertidumbre):
    try:
        duration = end - start
        collection = database['trainings']
        document = {
                "date": datetime.now(),
                "productSKU": sku,                
                "mae": mae,
                "rmse": rmse, 
                "rs": rs,
                "Duration":{
                "start": start,
                "end": end, 
                "duration": duration.total_seconds()
                },
                "fecha_quiebre": fecha_quiebre,
                "prediccion": prediccion,
                "incertidumbre" : incertidumbre ,
                "notes": ""
        }            
        collection.insert_one(document)
        print(f"Inserted entrenamiento de {sku}")
    except Exception as e:
        print(f"An error occurred: {e}")
    #finally:
    #    client.close()

def borrar_entrenamientos_por_sku(database, r):
    try:
        coleccion = database['colatrainings'] 
        # Eliminar documentos donde el campo sku sea igual a 'r'
        print(f'sku {r}')
        resultado = coleccion.delete_many({'sku': r})

        print(f'Se eliminaron {resultado.deleted_count} documentos con SKU: {r}')
    except Exception as e:
        print(f'Error al eliminar documentos: {e}')


In [3]:
connection_string = "DefaultEndpointsProtocol=https;AccountName=storageuees;AccountKey=uSahqju2rNAGzygs9nasICLZVZsrLGT+eq+wuBB9rOnq3mhNxsfEdCHeGoVEMVOosVw7KdxEArjY+AStl+onpg==;EndpointSuffix=core.windows.net"
blob_service_client = BlobServiceClient.from_connection_string(connection_string)

# Nombre del contenedor y el blob (archivo) donde guardarás el modelo
container_name = "containeruees"


borrar_archivos_pkl('./')
client = connect_to_mongo()
database = client['gestion_inventarios']

collection = database['movimientos']

data_productos = collection.distinct("Product.productSKU")

colx = database['colatrainings']

data_training = colx.distinct("sku")



#print(type(data_productos))
#print(data_productos[0:2])



  return get_validated_options(opts, warn)
  client = MongoClient(cs)


Connected to MongoDB successfully!


In [4]:
for r in data_training:
    start = datetime.now()
    query = {"Product.productSKU": r}
    fields = {"date":1, "contador": 1,"type": 1, "productSKU":1, "totalQTY":1, "_id": 0}
    resultados = list(collection.find(query, fields).sort("date",1))

    data = pd.DataFrame(resultados)

    data['dias'] = (data['date'] - data['date'].min()).dt.days

    #print(f"Dato {query}")    

    # Separar las características (X) y el objetivo (y)
    X = data[['dias']]  # Usamos los días como entrada
    y = data['totalQTY']  # Usamos el stock como salida

    # Dividir en entrenamiento y prueba
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.01,  random_state=42)

    # Combinación de un kernel RBF con un kernel periódico
    #kernel = C(1.0, (1e-4, 1e1)) * RBF(10, (1e-2, 1e2)) 
    kernel = Matern(length_scale=1.0, nu=1.5)

    # Crear el modelo de GPR
    gpr = GaussianProcessRegressor(kernel = kernel, n_restarts_optimizer=10, alpha=1e-2)

    # Entrenar el modelo con los datos de entrenamiento
    gpr.fit(X_train, y_train)

    # Hacer predicciones en el conjunto de prueba
    y_pred, sigma = gpr.predict(X_test, return_std=True)

    # Calcular las métricas de rendimiento
    mae = mean_absolute_error(y_test, y_pred)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))
    r2 = r2_score(y_test, y_pred)
    llh = gpr.log_marginal_likelihood()

    # Ordenar los datos por el valor de los días
    X_test_sorted = X_test.sort_values(by='dias')
    y_test_sorted = y_test.loc[X_test_sorted.index]

    #print(len(X_test_sorted))
    #print(len(y_test_sorted))

    # Como y_pred es un array de NumPy, lo ordenamos con los índices del DataFrame convertido a un array
    y_pred_sorted = y_pred[X_test_sorted.index.argsort()]

    # Supongamos que quieres predecir los próximos 30 días
    n_dias_prediccion = 30

    nuevos_dias = np.arange(len(data) , len(data) + n_dias_prediccion).reshape(-1,1)

    fecha_max = data['date'].max()  #+ pd.Timedelta(days= n_dias_prediccion)

    # Asegurarse de que el modelo gp esté entrenado (si no lo está, asegúrate de ejecutar la parte de entrenamiento previamente)
    # Hacer predicciones con el modelo entrenado
    y_pred_nuevo, sigma_nuevo = gpr.predict(nuevos_dias, return_std=True)

    #print(sigma_nuevo)
    # Crear un rango de fechas que se extienda a los días predichos
    fechas_prediccion = pd.date_range(fecha_max, periods=n_dias_prediccion + 1, freq='D')[1:]
    #print(fechas_prediccion)

    # Imprimir los resultados de las predicciones
    for i, (fecha, pred, incert) in enumerate(zip(fechas_prediccion, y_pred_nuevo, sigma_nuevo)):
        if pred > 1:
            print(f"Predicción para el {fecha.strftime('%Y-%m-%d')}: {pred:.2f} con incertidumbre de {incert:.2f}")
        else:
            fecha_quiebre = fecha.strftime('%Y-%m-%d')
            prediccion = pred
            incertidumbre = incert

    nombre_modelo = query['Product.productSKU']+'.pkl'
    blob_name = "training_models/" + nombre_modelo

    joblib.dump(gpr, nombre_modelo)

    # Guardar el modelo entrenado en Blob Storage
    blob_client = blob_service_client.get_blob_client(container=container_name, blob=blob_name)

    with open(nombre_modelo, "rb") as file:
        blob_client.upload_blob(file, overwrite=True)

    end = datetime.now()

    insert_training(database, r, mae, rmse, r2, start, end, fecha_quiebre, prediccion, incert)
    print('entrando a borrar')
    borrar_entrenamientos_por_sku(database, r)



Inserted entrenamiento de QAAAZPWK
entrando a borrar
sku QAAAZPWK
Se eliminaron 1 documentos con SKU: QAAAZPWK
Predicción para el 2024-07-01: 12.99 con incertidumbre de 0.10
Predicción para el 2024-07-02: 8.61 con incertidumbre de 0.60
Predicción para el 2024-07-03: 4.88 con incertidumbre de 0.87
Predicción para el 2024-07-04: 2.56 con incertidumbre de 0.96
Predicción para el 2024-07-05: 1.28 con incertidumbre de 0.99
Inserted entrenamiento de QAPQCKZMAAK
entrando a borrar
sku QAPQCKZMAAK
Se eliminaron 1 documentos con SKU: QAPQCKZMAAK
Predicción para el 2024-07-02: 1.00 con incertidumbre de 0.10
Inserted entrenamiento de QAPWBKAAAAP
entrando a borrar
sku QAPWBKAAAAP
Se eliminaron 1 documentos con SKU: QAPWBKAAAAP


In [5]:
client.close()

borrar_archivos_pkl('./')

Archivo eliminado: ./QAAAZPWK.pkl
Archivo eliminado: ./QAPQCKZMAAK.pkl
Archivo eliminado: ./QAPWBKAAAAP.pkl
