Funcion creada con asistencia de Claude 3.5 Sonnet

In [1]:
%load_ext autoreload
%autoreload 2

import pandas as pd
import pickle  # Cambiamos joblib por pickle
import os


# Version  FUNCIONAL

In [1]:


def predict_from_excel(model_path, excel_path, exclude_columns=None, output_column='predicciones'):
    """
    Carga un archivo Excel, añade una columna 'rand' con valores 0,
    hace predicciones usando un modelo pre-entrenado de PyCaret,
    y guarda los resultados en un nuevo archivo Excel.

    :param model_path: Ruta al archivo del modelo guardado con PyCaret
    :param excel_path: Ruta al archivo Excel con los datos de entrada
    :param exclude_columns: Lista de columnas a excluir como entrada (opcional)
    :param output_column: Nombre de la columna para las predicciones (por defecto: 'predicciones')
    :return: Ruta al archivo Excel de salida con las predicciones
    """
    # Cargar el modelo usando PyCaret
    modelo = load_model(model_path)

    # Cargar los datos
    df = pd.read_excel(excel_path)

    # Añadir la columna 'rand' con valores 0
    df['rand'] = 0

    # Excluir columnas si se especifican
    if exclude_columns:
        df = df.drop(columns=[col for col in exclude_columns if col != 'rand'], errors='ignore')

    # Hacer predicciones usando PyCaret
    predicciones = predict_model(modelo, data=df,raw_score=True)
    #predicciones = predict_model(estimator=modelo, data=df, raw_score=True)

    # El resultado de predict_model ya incluye las predicciones, 
    # generalmente en una columna llamada 'Label' o similar
    # Renombrar la columna de predicciones si es necesario
    if 'Label' in predicciones.columns:
        predicciones = predicciones.rename(columns={'Label': output_column})
    elif 'prediction_label' in predicciones.columns:
        predicciones = predicciones.rename(columns={'prediction_label': output_column})
    else:
        # Si la columna de predicciones tiene otro nombre, ajusta esto según sea necesario
        pass

    # Eliminar la columna 'rand' del resultado final si no se necesita
    if 'rand' in predicciones.columns:
        predicciones = predicciones.drop(columns=['rand'])

    # Crear nombre para el archivo de salida
    base_name = os.path.splitext(excel_path)[0]
    current_date = datetime.datetime.now().strftime("%Y%m%d")
    output_path = f"{base_name}_{current_date}_predicciones.xlsx"
   #output_path = f"{base_name}_con_predicciones.xlsx"

    # Guardar resultados
    predicciones.to_excel(output_path, index=False)

    return output_path



In [4]:

# Ejemplo de uso:
model_path = '20240827_SinCaDestilledVortex2SMOTECalibrated'
excel_path = "./DATA/VARISCITA ROMANA100.xlsx"
exclude_columns = []  # Columnas que no son para el modelo

try:
    output_file = predict_from_excel(model_path, excel_path, exclude_columns)
    print(f"Predicciones guardadas en: {output_file}")
except Exception as e:
    print(f"Error al procesar el archivo: {str(e)}")

Transformation Pipeline and Model Successfully Loaded
Error al procesar el archivo: "['In', 'W'] not in index"


In [None]:
df = pd.read_excel("/media/dsg/TOSHIBA EXT/PhD/DATA/XRF_VORTEX_MACLAS/20241107XRF_MACLASpredsONLYPhosph.xlsx")


In [17]:
df.info(verbose=True, null_counts=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4330 entries, 0 to 4329
Data columns (total 115 columns):
 #    Column                  Non-Null Count  Dtype  
---   ------                  --------------  -----  
 0    Unnamed: 0.2            4330 non-null   int64  
 1    Unnamed: 0.1            4330 non-null   int64  
 2    Unnamed: 0              4330 non-null   int64  
 3    Name                    4330 non-null   object 
 4    Inv. Pieza              2718 non-null   object 
 5    Site                    4328 non-null   object 
 6    PK_coord                4213 non-null   object 
 7    Publicada               4330 non-null   bool   
 8    TIPO                    4328 non-null   object 
 9    Date HALO               413 non-null    object 
 10   INV. HALO               232 non-null    object 
 11   HALO 1                  229 non-null    object 
 12   HALO 2                  35 non-null     object 
 13   HALO 3                  14 non-null     object 
 14   HALO 4                

**para usar con diferentes archivos**

In [12]:
# Procesar múltiples archivos
excel_files = ['datos1.xlsx', 'datos2.xlsx', 'datos3.xlsx']

for file in excel_files:
    try:
        output = predict_from_excel(model_path, file)
        print(f"Predicciones para {file} guardadas en: {output}")
    except Exception as e:
        print(f"Error al procesar {file}: {str(e)}")

Transformation Pipeline and Model Successfully Loaded
Error al procesar datos1.xlsx: [Errno 2] No such file or directory: 'datos1.xlsx'
Transformation Pipeline and Model Successfully Loaded
Error al procesar datos2.xlsx: [Errno 2] No such file or directory: 'datos2.xlsx'
Transformation Pipeline and Model Successfully Loaded
Error al procesar datos3.xlsx: [Errno 2] No such file or directory: 'datos3.xlsx'
