In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.svm import SVC  # Importa la clase SVC para SVM
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import confusion_matrix, accuracy_score

# Carga el conjunto de datos
data = simple_causes.copy()

# Toma una submuestra aleatoria del conjunto de datos
data = data.sample(frac=0.1, random_state=42)

# Separa las características y la variable objetivo
X = data.drop('causa', axis=1)
y = data['causa']

# Utiliza todas las características disponibles
selected_features = X.columns.tolist()

# Divide los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crea el preprocesador de las características
numeric_features = ['edad']
categorical_features = [feat for feat in selected_features if feat != 'edad']

numeric_transformer = StandardScaler()
categorical_transformer = OneHotEncoder(handle_unknown='ignore')

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Crea el pipeline
pipeline = Pipeline(steps=[('preprocessor', preprocessor),
                           ('model',  SVC())])  # Cambio aquí de LogisticRegression a SVC

# Define la rejilla de hiperparámetros para GridSearchCV
param_grid = {
    'model__C': [0.1, 1, 10],
    'model__kernel': ['linear', 'poly', 'rbf', 'sigmoid'],
    'model__gamma': ['scale', 'auto']
}

# Realiza la búsqueda en la rejilla (GridSearchCV)
grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='accuracy', n_jobs=-1)
grid_search.fit(X_train, y_train)

# Obtiene el mejor modelo y su precisión
best_model = grid_search.best_estimator_
best_score = grid_search.best_score_
best_params = grid_search.best_params_

# Realiza predicciones en el conjunto de prueba usando el mejor modelo
y_pred = best_model.predict(X_test)

# Evalúa el modelo
cm = confusion_matrix(y_test, y_pred)
accuracy = accuracy_score(y_test, y_pred)

print("Mejores hiperparámetros:", best_params)
print("Mejor precisión:", best_score)
print("Matriz de confusión:")
print(cm)
print("Precisión en el conjunto de prueba:", accuracy)


NameError: name 'simple_causes' is not defined