In [None]:
# 7. **Validación y Evaluación**
   - **Utilidad:** Este grupo de métodos se utiliza para evaluar el rendimiento del modelo y ajustar los hiperparámetros.
   - **Funciones comunes:**
     - **train_test_split:** Dividir los datos en conjuntos de entrenamiento y prueba.
     - **cross_val_score:** Validación cruzada para estimar el rendimiento del modelo.
     - **GridSearchCV:** Búsqueda en cuadrícula para la optimización de hiperparámetros.
     - **RandomizedSearchCV:** Búsqueda aleatoria para la optimización de hiperparámetros.
     - **accuracy_score:** Calcular la precisión del modelo.
     - **confusion_matrix:** Generar la matriz de confusión.


In [None]:
## train_test_split
Dividimos los datos en conjuntos de entrenamiento y prueba (80% y 20% respectivamente) y mostramos el tamaño de cada conjunto.

In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# Load the dataset
data = load_iris()
X = data.data
y = data.target

# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f'Training set size: {X_train.shape[0]} samples')
print(f'Test set size: {X_test.shape[0]} samples')


Training set size: 120 samples
Test set size: 30 samples


In [None]:
## cross_val_score
Realizamos una validación cruzada de 5 pliegues y mostramos las puntuaciones de cada pliegue y la media.

In [2]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score

# Initialize the Logistic Regression model
model = LogisticRegression(max_iter=200)

# Perform 5-fold cross-validation
scores = cross_val_score(model, X, y, cv=5)

print(f'Cross-validation scores: {scores}')
print(f'Average cross-validation score: {scores.mean():.2f}')


Cross-validation scores: [0.96666667 1.         0.93333333 0.96666667 1.        ]
Average cross-validation score: 0.97


## GridSearchCV
Realizamos una búsqueda en cuadrícula para encontrar los mejores hiperparámetros y mostramos los mejores parámetros y la mejor puntuación de validación cruzada.
- Cargamos el dataset Wine y dividimos los datos en conjuntos de entrenamiento y prueba para clasificación.
- Creamos un pipeline que primero escala los datos y luego aplica la regresión logística.
- Definimos un param_grid que incluye los parámetros C, solver (solo liblinear para evitar problemas de convergencia) y max_iter para la búsqueda de hiperparámetros.
- Inicializamos y ajustamos GridSearchCV para encontrar los mejores parámetros.


In [10]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split

from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

# Load the dataset
data = load_wine()
X_clf = data.data
y_clf = data.target

# Split the dataset into training and testing sets
X_train_clf, X_test_clf, y_train_clf, y_test_clf = train_test_split(X_clf, y_clf, test_size=0.2, random_state=42)

# Define the parameter grid
param_grid = {
    'logisticregression__C': [0.1, 1, 10, 100],
    'logisticregression__solver': ['liblinear'],
    'logisticregression__max_iter': [500, 1000, 2000]
}

# Create a pipeline with scaling and logistic regression
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('logisticregression', LogisticRegression())
])

# Initialize GridSearchCV
grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='accuracy')

# Fit GridSearchCV
grid_search.fit(X_train_clf, y_train_clf)

print(f'Best parameters: {grid_search.best_params_}')
print(f'Best cross-validation score: {grid_search.best_score_:.2f}')



Best parameters: {'logisticregression__C': 1, 'logisticregression__max_iter': 500, 'logisticregression__solver': 'liblinear'}
Best cross-validation score: 0.99


## RandomizedSearchCV
Búsqueda aleatoria para la optimización de hiperparámetros.
- Cargamos el dataset Wine y dividimos los datos en conjuntos de entrenamiento y prueba para clasificación.
- Creamos un pipeline que primero escala los datos y luego aplica la regresión logística.
- Definimos un param_dist que incluye los parámetros C, solver (solo liblinear para evitar problemas de convergencia) y max_iter para la búsqueda de hiperparámetros.
- Inicializamos y ajustamos RandomizedSearchCV para encontrar los mejores parámetros.

In [15]:
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split

from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import uniform

# Load the dataset
data = load_wine()
X_clf = data.data
y_clf = data.target

# Split the dataset into training and testing sets
X_train_clf, X_test_clf, y_train_clf, y_test_clf = train_test_split(X_clf, y_clf, test_size=0.2, random_state=42)

# Define the parameter distribution
param_dist = {
    'logisticregression__C': uniform(0.1, 100),
    'logisticregression__solver': ['liblinear'],
    'logisticregression__max_iter': [500, 1000, 2000]
}

# Create a pipeline with scaling and logistic regression
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('logisticregression', LogisticRegression())
])

# Initialize RandomizedSearchCV
random_search = RandomizedSearchCV(pipeline, param_dist, n_iter=10, cv=5, scoring='accuracy', random_state=42)

# Fit RandomizedSearchCV
random_search.fit(X_train_clf, y_train_clf)

print(f'Best parameters: {random_search.best_params_}')
print(f'Best cross-validation score: {random_search.best_score_:.2f}')


Best parameters: {'logisticregression__C': np.float64(2.1584494295802448), 'logisticregression__max_iter': 1000, 'logisticregression__solver': 'liblinear'}
Best cross-validation score: 0.98


In [None]:
## accuracy_score

In [13]:
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression

# Initialize and train the model
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)

# Predict using the test set
y_pred = model.predict(X_test)

# Evaluate the model
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')


Accuracy: 1.00


In [None]:
## confusion_matrix

In [14]:
from sklearn.metrics import confusion_matrix

# Generate the confusion matrix
conf_matrix = confusion_matrix(y_test, y_pred)

print(f'Confusion Matrix:\n{conf_matrix}')


Confusion Matrix:
[[10  0  0]
 [ 0  9  0]
 [ 0  0 11]]
