In [2]:
import pandas as pd
import os
import joblib  # Para guardar el modelo
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

print("üöÄ Iniciando entrenamiento del modelo...")

# 1. CARGAR DATOS
# Usamos la ruta donde sabemos que est√° el archivo
ruta_archivo = r"c:\Users\eriko\Spam_Classifier_Project\data\raw\email-spam-classification-dataset-csv\emails.csv"

if os.path.exists(ruta_archivo):
    df = pd.read_csv(ruta_archivo)
    print(f"‚úÖ Datos cargados: {len(df)} registros.")
else:
    print("‚ùå ERROR: No encuentro el archivo. Verifica la ruta.")

# 2. SEPARAR X (Caracter√≠sticas) e y (Etiqueta)
# X son todas las palabras (columnas 1 a 3001)
# y es la columna 'Prediction'
X = df.drop(columns=['Email No.', 'Prediction'])
y = df['Prediction']

# 3. DIVIDIR DATOS (80% Entrenar, 20% Probar)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 4. ENTRENAR EL MODELO (Naive Bayes)
print("üß† Entrenando...")
model = MultinomialNB()
model.fit(X_train, y_train)

# 5. EVALUAR RESULTADOS
predicciones = model.predict(X_test)
precision = accuracy_score(y_test, predicciones)

print(f"\nüèÜ Precisi√≥n del modelo: {precision*100:.2f}%")
print("\nReporte detallado:")
print(classification_report(y_test, predicciones))

# 6. GUARDAR EL MODELO (¬°Paso Importante!)
# Creamos la carpeta 'models' si no existe
if not os.path.exists('../models'):
    os.makedirs('../models')

ruta_modelo = '../models/modelo_spam_entrenado.pkl'
joblib.dump(model, ruta_modelo)

print(f"üíæ ¬°Modelo guardado exitosamente en: {ruta_modelo}!")
print("Ahora puedes usar este archivo para hacer predicciones en el futuro.")

üöÄ Iniciando entrenamiento del modelo...
‚úÖ Datos cargados: 5172 registros.
üß† Entrenando...

üèÜ Precisi√≥n del modelo: 95.46%

Reporte detallado:
              precision    recall  f1-score   support

           0       0.98      0.95      0.97       739
           1       0.89      0.96      0.92       296

    accuracy                           0.95      1035
   macro avg       0.94      0.96      0.95      1035
weighted avg       0.96      0.95      0.96      1035

üíæ ¬°Modelo guardado exitosamente en: ../models/modelo_spam_entrenado.pkl!
Ahora puedes usar este archivo para hacer predicciones en el futuro.
