In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from joblib import dump, load

# Rutas de los archivos

train_data = 'data/ODScat_345.xlsx'  # Archivo para almacenar los datos históricos
test_data_path = 'data/TestODScat_345.xlsx'  # Datos de prueba
model_path = 'assets/modelo.joblib'  # Ruta para guardar el modelo entrenado

# Cargar los datos históricos desde el archivo Excel
data = pd.read_excel(train_data)

# Cargar los datos de prueba desde el archivo Excel
test_data = pd.read_excel(test_data_path)

# Suponiendo que los datos históricos tienen una columna 'Textos_espanol' para las características (X) y una columna 'sdg' para las etiquetas (y)
X_historico = data['Textos_espanol']  # Columna de texto
y_historico = data['sdg']  # Columna de etiquetas

# Dividir los datos históricos en entrenamiento y prueba (80% entrenamiento, 20% prueba)
X_train, X_test, y_train, y_test = train_test_split(X_historico, y_historico, test_size=0.2, random_state=42)

# Crear un pipeline estándar con TfidfVectorizer y MultinomialNB
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer()),  # Transformación de texto a vectores TF-IDF
    ('nb', MultinomialNB())  # Clasificador Naive Bayes
])

# Entrenar el pipeline con los datos históricos
pipeline.fit(X_train, y_train)

# Guardar el pipeline entrenado en un archivo utilizando Joblib
dump(pipeline, 'modelo.joblib')

# Cargar el pipeline desde el archivo
loaded_pipeline = load('modelo.joblib')

# Hacer predicciones con el pipeline cargado en los datos de prueba
predictions = loaded_pipeline.predict(X_test)


