In [29]:
from ucimlrepo import fetch_ucirepo
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report, confusion_matrix

In [38]:
breast_cancer_wisconsin_diagnostic = fetch_ucirepo(id=17)

X = breast_cancer_wisconsin_diagnostic.data.features
y = breast_cancer_wisconsin_diagnostic.data.targets['Diagnosis']

In [39]:
print(X.head())
print(y.head())

y = y.map({'M': 1, 'B': 0})  

   radius1  texture1  perimeter1   area1  smoothness1  compactness1  \
0    17.99     10.38      122.80  1001.0      0.11840       0.27760   
1    20.57     17.77      132.90  1326.0      0.08474       0.07864   
2    19.69     21.25      130.00  1203.0      0.10960       0.15990   
3    11.42     20.38       77.58   386.1      0.14250       0.28390   
4    20.29     14.34      135.10  1297.0      0.10030       0.13280   

   concavity1  concave_points1  symmetry1  fractal_dimension1  ...  radius3  \
0      0.3001          0.14710     0.2419             0.07871  ...    25.38   
1      0.0869          0.07017     0.1812             0.05667  ...    24.99   
2      0.1974          0.12790     0.2069             0.05999  ...    23.57   
3      0.2414          0.10520     0.2597             0.09744  ...    14.91   
4      0.1980          0.10430     0.1809             0.05883  ...    22.54   

   texture3  perimeter3   area3  smoothness3  compactness3  concavity3  \
0     17.33      184.60 

In [40]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [41]:
knn = KNeighborsClassifier(n_neighbors=5)  
knn.fit(X_train, y_train)

In [34]:
y_pred = knn.predict(X_test)

print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

[[68  3]
 [ 3 40]]
              precision    recall  f1-score   support

           0       0.96      0.96      0.96        71
           1       0.93      0.93      0.93        43

    accuracy                           0.95       114
   macro avg       0.94      0.94      0.94       114
weighted avg       0.95      0.95      0.95       114



In [54]:
from sklearn.model_selection import GridSearchCV

param_grid = {
    'n_neighbors': range(1, 31),
    'weights': ['uniform', 'distance'],
}

grid_search = GridSearchCV(KNeighborsClassifier(), param_grid, cv=10)
grid_search.fit(X_train, y_train)

print("Mejores parámetros encontrados:", grid_search.best_params_)
print("Mejor puntuación de validación:", grid_search.best_score_)

Mejores parámetros encontrados: {'n_neighbors': 7, 'weights': 'uniform'}
Mejor puntuación de validación: 0.971304347826087


In [58]:

model = KNeighborsClassifier()

param_grid = {
    'n_neighbors': range(1, 32),  # Rango de 1 a 31
}

results = {}
for cv_value in range(2, 25):  
    grid_search = GridSearchCV(model, param_grid, cv=cv_value)
    grid_search.fit(X_train, y_train)
    
    # Almacenar los resultados
    results[cv_value] = {
        'best_params': grid_search.best_params_,
        'best_score': grid_search.best_score_
    }

# Imprimir los resultados para cada valor de cv, ordenados de mejor a menor
sorted_results = sorted(results.items(), key=lambda item: item[1]['best_score'], reverse=True)

for cv_value, result in sorted_results:
    print(f"Para cv={cv_value}: Mejores parámetros encontrados: {result['best_params']}, Mejor puntuación de validación: {result['best_score']}")



Para cv=13: Mejores parámetros encontrados: {'n_neighbors': 9}, Mejor puntuación de validación: 0.9736263736263737
Para cv=10: Mejores parámetros encontrados: {'n_neighbors': 7}, Mejor puntuación de validación: 0.971304347826087
Para cv=18: Mejores parámetros encontrados: {'n_neighbors': 9}, Mejor puntuación de validación: 0.9712820512820515
Para cv=7: Mejores parámetros encontrados: {'n_neighbors': 9}, Mejor puntuación de validación: 0.9692307692307693
Para cv=8: Mejores parámetros encontrados: {'n_neighbors': 7}, Mejor puntuación de validación: 0.969141604010025
Para cv=16: Mejores parámetros encontrados: {'n_neighbors': 9}, Mejor puntuación de validación: 0.9691348522167488
Para cv=11: Mejores parámetros encontrados: {'n_neighbors': 7}, Mejor puntuación de validación: 0.969063456868335
Para cv=15: Mejores parámetros encontrados: {'n_neighbors': 5}, Mejor puntuación de validación: 0.9690322580645162
Para cv=17: Mejores parámetros encontrados: {'n_neighbors': 9}, Mejor puntuación de v