<a href="https://colab.research.google.com/github/NickReynoso/skills-introduction-to-github/blob/main/MODELO_%2B_PREDICCI%C3%93N.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import joblib
import os
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.preprocessing import LabelEncoder
from google.colab import files

# Nombres de los archivos del modelo guardado
MODEL_FILE = "naive_bayes_model.pkl"
VECTORIZER_FILE = "tfidf_vectorizer.pkl"
ENCODER_FILE = "label_encoder.pkl"

# Verificar si hay un modelo guardado previamente
model_exists = all(os.path.exists(f) for f in [MODEL_FILE, VECTORIZER_FILE, ENCODER_FILE])

# Subir el archivo de entrenamiento si el usuario desea
print("Si quieres entrenar un nuevo modelo, sube un archivo de entrenamiento. Si no, se usará el modelo existente.")
uploaded = files.upload()

if uploaded:  # Si se subió un archivo, entrenar un nuevo modelo
    file_name = list(uploaded.keys())[0]  # Obtener el nombre del archivo subido
    df_train = pd.read_excel(file_name)

    # Filtrar datos con categorías conocidas
    df_train = df_train.dropna(subset=["CODE"])

    # Vectorizar la columna "Fault"
    vectorizer = TfidfVectorizer(stop_words="english")
    X_train = vectorizer.fit_transform(df_train["Fault"].fillna(""))

    # Codificar las etiquetas de la columna "CODE"
    label_encoder = LabelEncoder()
    y_train = label_encoder.fit_transform(df_train["CODE"])

    # Entrenar modelo Naive Bayes
    nb_model = MultinomialNB()
    nb_model.fit(X_train, y_train)

    # Guardar el modelo, vectorizador y codificador
    joblib.dump(nb_model, MODEL_FILE)
    joblib.dump(vectorizer, VECTORIZER_FILE)
    joblib.dump(label_encoder, ENCODER_FILE)

    print(f"✅ Nuevo modelo entrenado y guardado con el archivo: {file_name}")

else:  # Si no se subió un archivo, usar el último modelo guardado
    if model_exists:
        nb_model = joblib.load(MODEL_FILE)
        vectorizer = joblib.load(VECTORIZER_FILE)
        label_encoder = joblib.load(ENCODER_FILE)
        print("✅ Se usó el modelo guardado previamente.")
    else:
        raise FileNotFoundError("❌ No se subió ningún archivo y no hay un modelo guardado. Entrena uno primero.")


Si quieres entrenar un nuevo modelo, sube un archivo de entrenamiento. Si no, se usará el modelo existente.


Saving FIRST MID MARCH 2025 CORREGIDO.xlsx to FIRST MID MARCH 2025 CORREGIDO (2).xlsx
✅ Nuevo modelo entrenado y guardado con el archivo: FIRST MID MARCH 2025 CORREGIDO (2).xlsx


In [None]:
import pandas as pd
import joblib
import os
from google.colab import files

# Nombres de los archivos guardados
MODEL_FILE = "naive_bayes_model.pkl"
VECTORIZER_FILE = "tfidf_vectorizer.pkl"
ENCODER_FILE = "label_encoder.pkl"

# Verificar que los archivos del modelo existen
for file in [MODEL_FILE, VECTORIZER_FILE, ENCODER_FILE]:
    if not os.path.exists(file):
        raise FileNotFoundError(f"❌ No se encontró {file}. Asegúrate de ejecutar la primera celda antes.")

# Cargar el modelo y los transformadores
nb_model = joblib.load(MODEL_FILE)
vectorizer = joblib.load(VECTORIZER_FILE)
label_encoder = joblib.load(ENCODER_FILE)

# Subir el archivo a completar
print("Sube el archivo con datos faltantes:")
uploaded = files.upload()
file_name = list(uploaded.keys())[0]  # Obtener el nombre del archivo subido

# Cargar el archivo de Excel
df = pd.read_excel(file_name)

# Filtrar datos sin categoría asignada
df_missing = df[df["CODE"].isna()]

# Transformar los datos faltantes con el vectorizador guardado
X_missing = vectorizer.transform(df_missing["Fault"].fillna(""))

# Predecir las categorías faltantes
predicted_codes = nb_model.predict(X_missing)

# Convertir las predicciones de vuelta a etiquetas originales
df.loc[df_missing.index, "CODE"] = label_encoder.inverse_transform(predicted_codes)

# Guardar el archivo actualizado
output_file = "ARCHIVO_COMPLETADO.xlsx"
df.to_excel(output_file, index=False)

# Descargar el archivo actualizado
files.download(output_file)

print(f"✅ Archivo '{file_name}' completado y descargado exitosamente.")


Sube el archivo con datos faltantes:


Saving WO 20 MARCH.xlsx to WO 20 MARCH (2).xlsx


  df.loc[df_missing.index, "CODE"] = label_encoder.inverse_transform(predicted_codes)


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

✅ Archivo 'WO 20 MARCH (2).xlsx' completado y descargado exitosamente.


In [None]:
import pandas as pd
from google.colab import files

# Subir el archivo con predicciones previas
print("Sube el archivo previamente completado para hacer correcciones:")
uploaded = files.upload()
file_name = list(uploaded.keys())[0]  # Obtener el nombre del archivo subido

# Cargar el archivo en un DataFrame
df = pd.read_excel(file_name)

# Diccionario de correcciones manuales
correcciones = {
    "Texto del Fault 1": "Categoría Correcta 1",
    "Texto del Fault 2": "Categoría Correcta 2",
    "Texto del Fault 3": "Categoría Correcta 3",
    # Agrega más correcciones según sea necesario
}

# Aplicar correcciones
df["CODE"] = df.apply(lambda row: correcciones.get(row["Fault"], row["CODE"]), axis=1)

# Guardar el archivo corregido
output_file = "ARCHIVO_CORREGIDO.xlsx"
df.to_excel(output_file, index=False)

# Descargar el archivo corregido
files.download(output_file)

print("✅ Archivo corregido y descargado exitosamente.")
