### Validación Cruzada (Cross-Validation)

Situación: Eres un científico de datos en una startup de salud. Tienes 200 pacientes con datos genéticos para predecir diabetes, pero el dataset es pequeño. Quieres asegurarte de que tu modelo no dependa de cómo dividiste los datos.

¿Por qué usar Cross-Validation?

* Con pocos datos, la división train/test puede ser inestable (el accuracy varía mucho según los datos elegidos).
* La validación cruzada usa múltiples divisiones y promedia los resultados.

In [3]:
import numpy as np

from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score

# Datos sintéticos (simulando datos genéticos).
X, y = make_classification(n_samples = 200, n_features = 10, random_state = 42)

# Modelo (regresión logística).
modelo = LogisticRegression(max_iter = 1000)

# Cross-Validation de 5 folds (divide los datos en 5 partes).
scores = cross_val_score(modelo, X, y, cv = 5, scoring = 'accuracy')

print('Accuracy por fold:', scores)
print('Accuracy promedio:', np.mean(scores))

Accuracy por fold: [0.85  0.875 0.775 0.8   0.9  ]
Accuracy promedio: 0.8400000000000001


Usa el dataset de cáncer de mama (load_breast_cancer) para:

1. Aplicar 10-fold cross-validation.
2. Usar como métrica el F1-Score (en lugar de accuracy).
3. Imprimir el F1-Socre promedio.

Pista: Cambia scoring = 'f1' en cross_val_score.

In [4]:
import numpy as np

from sklearn.datasets import load_breast_cancer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score

X, y = load_breast_cancer(n_samples = 200, n_features = 10, random_state = 42)

TypeError: got an unexpected keyword argument 'n_samples'