In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
import joblib
import matplotlib.pyplot as plt

# Cargar los datos desde el CSV
data = pd.read_csv("data.csv")

# Seleccionar las características (X) y la variable objetivo (y)
X = data.drop("Niveles de estrés", axis=1)
y = data["Niveles de estrés"]

# Split de datos para clasificación (supongamos que quieres predecir si hay niveles de estrés alto o bajo)
umbral = 0.5  # Ajusta el umbral según tus necesidades
y_class = (y > umbral).astype(int)
X_train_clf, X_test_clf, y_train_clf, y_test_clf = train_test_split(X, y_class, test_size=0.2)

# Modelos de clasificación
classification_models = [LogisticRegression(), RandomForestClassifier()]

best_classification_model = None
best_classification_accuracy = 0.0


for model in classification_models:
    model.fit(X_train_clf, y_train_clf)
    y_pred_clf = model.predict(X_test_clf)
    accuracy = accuracy_score(y_test_clf, y_pred_clf)
    print(f"Model: {model}, Accuracy: {accuracy.round(30)}")

    # Guardar el mejor modelo de clasificación basado en la mayor precisión
    if accuracy > best_classification_accuracy:
        best_classification_accuracy = accuracy
        best_classification_model = model

# Guardar el mejor modelo de clasificación en un archivo
joblib.dump(best_classification_model, 'best_classification_model.joblib')


Model: LogisticRegression(), Accuracy: 1.0
Model: RandomForestClassifier(), Accuracy: 0.9920634920634921


['best_classification_model.joblib']