

# Configuración Experimental



In [1]:

# Importar librerías necesarias para el procesamiento y modelado de datos
import numpy as np  # Para operaciones numéricas eficientes
import pandas as pd  # Para manejo de datos en forma de tablas (DataFrames)
import matplotlib.pyplot as plt  # Para generación de gráficos
import seaborn as sns  # Para visualización de datos más estilizada

# Importar herramientas de scikit-learn
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV, RandomizedSearchCV
from sklearn.preprocessing import StandardScaler  # Para normalización de datos
from sklearn.ensemble import RandomForestClassifier  # Modelo de aprendizaje supervisado
from sklearn.metrics import accuracy_score, classification_report  # Métricas de evaluación





*   **train_test_split** → Divide los datos en conjuntos de entrenamiento y prueba.
* **cross_val_score** → Realiza validación cruzada para evaluar modelos.
* **GridSearchCV** y **RandomizedSearchCV** → Optimizan hiperparámetros de los modelos.
* **StandardScaler** → Normaliza datos para mejorar rendimiento de los modelos.
* **RandomForestClassifier** → Algoritmo de clasificación basado en árboles de decisión.
* **accuracy_score** y **classification_report** → Calculan métricas de desempeño del modelo.

# Carga y Exploración de Datos

In [9]:
from sklearn.datasets import load_breast_cancer  # Importar dataset de cáncer de mama

# Cargar dataset en una variable
data = load_breast_cancer()

# Convertir a DataFrame de Pandas
df = pd.DataFrame(data.data, columns=data.feature_names)

# Agregar la columna 'target' con las etiquetas de clase (0 = maligno, 1 = benigno)
df['target'] = data.target

# Mostrar las primeras 5 filas del DataFrame
df.head(500)


Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,target
0,17.99,10.38,122.80,1001.0,0.11840,0.27760,0.30010,0.14710,0.2419,0.07871,...,17.33,184.60,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.11890,0
1,20.57,17.77,132.90,1326.0,0.08474,0.07864,0.08690,0.07017,0.1812,0.05667,...,23.41,158.80,1956.0,0.1238,0.1866,0.2416,0.1860,0.2750,0.08902,0
2,19.69,21.25,130.00,1203.0,0.10960,0.15990,0.19740,0.12790,0.2069,0.05999,...,25.53,152.50,1709.0,0.1444,0.4245,0.4504,0.2430,0.3613,0.08758,0
3,11.42,20.38,77.58,386.1,0.14250,0.28390,0.24140,0.10520,0.2597,0.09744,...,26.50,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.17300,0
4,20.29,14.34,135.10,1297.0,0.10030,0.13280,0.19800,0.10430,0.1809,0.05883,...,16.67,152.20,1575.0,0.1374,0.2050,0.4000,0.1625,0.2364,0.07678,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,14.87,20.21,96.12,680.9,0.09587,0.08345,0.06824,0.04951,0.1487,0.05748,...,28.48,103.90,783.6,0.1216,0.1388,0.1700,0.1017,0.2369,0.06599,1
496,12.65,18.17,82.69,485.6,0.10760,0.13340,0.08017,0.05074,0.1641,0.06854,...,22.15,95.29,633.7,0.1533,0.3842,0.3582,0.1407,0.3230,0.10330,1
497,12.47,17.31,80.45,480.1,0.08928,0.07630,0.03609,0.02369,0.1526,0.06046,...,24.34,92.82,607.3,0.1276,0.2506,0.2028,0.1053,0.3035,0.07661,1
498,18.49,17.52,121.30,1068.0,0.10120,0.13170,0.14910,0.09183,0.1832,0.06697,...,22.88,146.40,1600.0,0.1412,0.3089,0.3533,0.1663,0.2510,0.09445,0


```
load_breast_cancer()
```
→Carga el dataset de cáncer de mama.
```
pd.DataFrame(data.data, columns=data.feature_names)
```
→Convierte los datos en un DataFrame con nombres de columnas.
```
df['target'] = data.target
```
→ Agrega la columna objetivo con etiquetas de clase.
```
df.head()
```
→ Muestra las primeras 5 filas del dataset.

# División de Datos y Validación Cruzada

In [10]:
# Separar variables predictoras (X) y variable objetivo (y)
X = df.drop(columns=['target'])  # Eliminar la columna 'target' de las variables predictoras
y = df['target']  # Extraer la columna 'target' como variable objetivo

# División en entrenamiento (80%) y prueba (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=15, stratify=y)

# Crear un modelo base de Random Forest
model = RandomForestClassifier(random_state=15)

# Validación cruzada con 5 particiones (folds)
cv_scores = cross_val_score(model, X_train, y_train, cv=5, scoring='accuracy')

# Mostrar el promedio de accuracy en la validación cruzada
print(f'Accuracy promedio en validación cruzada: {np.mean(cv_scores):.4f}')


Accuracy promedio en validación cruzada: 0.9451


# División de Datos y Validación Cruzada

In [4]:
# Separar variables predictoras (X) y variable objetivo (y)
X = df.drop(columns=['target'])  # Eliminar la columna 'target' de las variables predictoras
y = df['target']  # Extraer la columna 'target' como variable objetivo

# División en entrenamiento (80%) y prueba (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Crear un modelo base de Random Forest
model = RandomForestClassifier(random_state=42)

# Validación cruzada con 5 particiones (folds)
cv_scores = cross_val_score(model, X_train, y_train, cv=5, scoring='accuracy')

# Mostrar el promedio de accuracy en la validación cruzada
print(f'Accuracy promedio en validación cruzada: {np.mean(cv_scores):.4f}')


Accuracy promedio en validación cruzada: 0.9538


```
X = df.drop(columns=['target'])
```
→ Extrae las características eliminando la columna objetivo.
```
y = df['target']
```
→ Define la variable objetivo.
```
train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)
```
→ Divide el dataset en 80% entrenamiento y 20% prueba, manteniendo la proporción de clases.
```
RandomForestClassifier(random_state=42)
```
→ Crea un modelo basado en árboles de decisión.
```
cross_val_score(model, X_train, y_train, cv=5, scoring='accuracy')
```
→ Realiza validación cruzada de 5 particiones y calcula la precisión (accuracy).
```
np.mean(cv_scores)
```
→ Calcula el promedio de accuracy en la validación cruzada.

#  Selección de Modelos y Ajuste de Hiperparámetros

In [15]:
# Definir una cuadrícula de hiperparámetros para la búsqueda
param_grid = {
    'n_estimators': [50, 100, 200],  # Número de árboles en el bosque
    'max_depth': [5, 10, 20, 30],  # Profundidad máxima de los árboles
    'min_samples_split': [2, 5, 10]  # Número mínimo de muestras para dividir un nodo
}

# Grid Search para encontrar la mejor combinación de hiperparámetros
grid_search = GridSearchCV(RandomForestClassifier(random_state=42), param_grid, cv=5, scoring='accuracy', n_jobs=-1)

# Ajustar el modelo con los datos de entrenamiento
grid_search.fit(X_train, y_train)

# Mostrar los mejores hiperparámetros encontrados
print(f"Mejor modelo encontrado: {grid_search.best_params_}")


Mejor modelo encontrado: {'max_depth': 10, 'min_samples_split': 2, 'n_estimators': 50}


```
param_grid

```
→ Define combinaciones de hiperparámetros para optimizar el modelo.

```
GridSearchCV(..., cv=5, scoring='accuracy', n_jobs=-1)

```
→ Busca la mejor combinación evaluando con validación cruzada de 5 particiones.

```
grid_search.fit(X_train, y_train)

```
→ Ajusta el modelo con los datos de entrenamiento.

```
grid_search.best_params_

```
→ Muestra la mejor combinación de hiperparámetros.


#  Evaluación del Modelo en el Conjunto de Prueba

In [17]:
# Extraer el mejor modelo encontrado en la búsqueda
best_model = grid_search.best_estimator_

# Predecir en el conjunto de prueba
y_pred = best_model.predict(X_test)

# Calcular y mostrar la precisión (accuracy) del modelo en el conjunto de prueba
print(f'Accuracy en prueba: {accuracy_score(y_test, y_pred):.4f}')

# Mostrar reporte de clasificación con precisión, recall y F1-score
print(classification_report(y_test, y_pred))


Accuracy en prueba: 0.9737
              precision    recall  f1-score   support

           0       1.00      0.93      0.96        42
           1       0.96      1.00      0.98        72

    accuracy                           0.97       114
   macro avg       0.98      0.96      0.97       114
weighted avg       0.97      0.97      0.97       114



```
grid_search.best_estimator_
```
→ Recupera el mejor modelo entrenado.
```
best_model.predict(X_test)
```
→ Predice las etiquetas del conjunto de prueba.
```
accuracy_score(y_test, y_pred)
```
→ Calcula la precisión del modelo en el conjunto de prueba.
```
classification_report(y_test, y_pred)
```
→ Genera un informe detallado con métricas como precisión (precision), exhaustividad (recall) y F1-score.