In [74]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn import preprocessing
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score


In [75]:
adult_census = pd.read_csv("https://github.com/INRIA/scikit-learn-mooc/raw/main/datasets/adult-census-numeric.csv")
adult_census

Unnamed: 0,age,capital-gain,capital-loss,hours-per-week,class
0,41,0,0,92,<=50K
1,48,0,0,40,<=50K
2,60,0,0,25,<=50K
3,37,0,0,45,<=50K
4,73,3273,0,40,<=50K
...,...,...,...,...,...
39068,45,0,0,40,<=50K
39069,47,0,0,60,<=50K
39070,29,0,1485,60,>50K
39071,29,0,0,40,<=50K


In [76]:
adult_census['class']= adult_census['class'].str.replace("<=50K", "0", regex=True)
adult_census['class']= adult_census['class'].str.replace(">50K", "1", regex=True)
adult_census

Unnamed: 0,age,capital-gain,capital-loss,hours-per-week,class
0,41,0,0,92,0
1,48,0,0,40,0
2,60,0,0,25,0
3,37,0,0,45,0
4,73,3273,0,40,0
...,...,...,...,...,...
39068,45,0,0,40,0
39069,47,0,0,60,0
39070,29,0,1485,60,1
39071,29,0,0,40,0


In [77]:
#features, todas menos class
#variable objetivo "class"
features = adult_census.drop(columns=['class'])
clase = adult_census["class"].astype(int)
features
clase

0        0
1        0
2        0
3        0
4        0
        ..
39068    0
39069    0
39070    1
39071    0
39072    1
Name: class, Length: 39073, dtype: int32

In [78]:
escalador = preprocessing.MinMaxScaler() 
#modulo de procesado. Va a escarlar los valores siendo el mínimo 0 y el máximo 1

features = escalador.fit_transform(features)
features

array([[0.32876712, 0.        , 0.        , 0.92857143],
       [0.42465753, 0.        , 0.        , 0.39795918],
       [0.5890411 , 0.        , 0.        , 0.24489796],
       ...,
       [0.16438356, 0.        , 0.34090909, 0.60204082],
       [0.16438356, 0.        , 0.        , 0.39795918],
       [0.39726027, 0.1502415 , 0.        , 0.55102041]])

In [79]:
# Crea el modelo KNeighborsClassifier  asignando a k=50
knn = {}
knn[0] = KNeighborsClassifier(n_neighbors=50)

In [80]:
# Entrena este modelo con los datos y el objetivo cargado arriba
knn[0].fit(features, clase)

Ahora vamos a usar otro dataSet para las pruebas:
'https://github.com/INRIA/scikit-learn-mooc/raw/main/datasets/adult-census-numeric-test.csv'

In [81]:
adult_census_test = pd.read_csv("https://github.com/INRIA/scikit-learn-mooc/raw/main/datasets/adult-census-numeric-test.csv")
adult_census_test

Unnamed: 0,age,capital-gain,capital-loss,hours-per-week,class
0,20,0,0,35,<=50K
1,53,0,0,72,>50K
2,41,0,0,50,>50K
3,20,0,0,40,<=50K
4,25,0,0,40,<=50K
...,...,...,...,...,...
9764,30,0,0,49,<=50K
9765,57,0,0,50,>50K
9766,63,0,0,35,<=50K
9767,59,0,0,40,<=50K


In [82]:
adult_census_test['class']= adult_census_test['class'].str.replace("<=50K", "0", regex=True)
adult_census_test['class']= adult_census_test['class'].str.replace(">50K", "1", regex=True)
adult_census_test

Unnamed: 0,age,capital-gain,capital-loss,hours-per-week,class
0,20,0,0,35,0
1,53,0,0,72,1
2,41,0,0,50,1
3,20,0,0,40,0
4,25,0,0,40,0
...,...,...,...,...,...
9764,30,0,0,49,0
9765,57,0,0,50,1
9766,63,0,0,35,0
9767,59,0,0,40,0


In [83]:
#features, todas menos class
#variable objetivo "class"
features_test = adult_census_test.drop(columns=['class'])
clase_test = adult_census_test["class"].astype(int)
features_test
clase_test

0       0
1       1
2       1
3       0
4       0
       ..
9764    0
9765    1
9766    0
9767    0
9768    0
Name: class, Length: 9769, dtype: int32

In [84]:
features_test = escalador.fit_transform(features_test)
features_test

array([[0.04109589, 0.        , 0.        , 0.34693878],
       [0.49315068, 0.        , 0.        , 0.7244898 ],
       [0.32876712, 0.        , 0.        , 0.5       ],
       ...,
       [0.63013699, 0.        , 0.        , 0.34693878],
       [0.57534247, 0.        , 0.        , 0.39795918],
       [0.34246575, 0.        , 0.        , 0.34693878]])

In [85]:
#Usa el modelo para hacer predicciones sobre los primeros 10 puntos de datos dentro de los datos. ¿Coinciden con los valores objetivo reales?
prediccion = knn[0].predict(features_test)
print("predicción:", prediccion[:10])
print("Probabilidades por clase",knn[0].predict_proba(features_test)[:10])
clase_test[:10]

predicción: [0 0 0 0 0 0 0 1 0 0]
Probabilidades por clase [[1.   0.  ]
 [0.68 0.32]
 [0.64 0.36]
 [1.   0.  ]
 [0.94 0.06]
 [0.8  0.2 ]
 [0.96 0.04]
 [0.12 0.88]
 [0.78 0.22]
 [0.68 0.32]]


0    0
1    1
2    1
3    0
4    0
5    0
6    0
7    1
8    0
9    0
Name: class, dtype: int32

In [86]:
#Completa
num_predicciones_correctas= 10-sum(a != b for a, b in zip(prediccion[:10], clase_test[:10]))
print(f"Hay {num_predicciones_correctas} predicciones correctas")

Hay 8 predicciones correctas


In [87]:
# Calcula la exactitud del modelo
exactitud = accuracy_score(clase_test, prediccion)
print(f"Exactitud del modelo: {exactitud:.2f}")

Exactitud del modelo: 0.81


In [88]:
#¿Qué pasa con la precisión si cambiamos k=5? ¿Y con k=100? ¿Cuál sería el mejor valor de K?
print(f"Exactitud del modelo con k=50: {exactitud:.2f}")
knn[1] = KNeighborsClassifier(n_neighbors=5)
knn[1].fit(features, clase)
prediccion = knn[1].predict(features_test)
exactitud = accuracy_score(clase_test, prediccion)
print(f"Exactitud del modelo con k=5: {exactitud:.2f}")
knn[2] = KNeighborsClassifier(n_neighbors=100)
knn[2].fit(features, clase)
prediccion = knn[2].predict(features_test)
exactitud = accuracy_score(clase_test, prediccion)
print(f"Exactitud del modelo con k=100: {exactitud:.2f}")


Exactitud del modelo con k=50: 0.81
Exactitud del modelo con k=5: 0.79
Exactitud del modelo con k=100: 0.80


In [89]:
# ¿Cuál sería el mejor valor de K?
k_range = range(5, 100, 5)
for k in k_range:
    knn[k] = KNeighborsClassifier(n_neighbors=k)
    knn[k].fit(features, clase)
    prediccion = knn[k].predict(features_test)
    exactitud = accuracy_score(clase_test, prediccion)
    print(f"Exactitud del modelo con k={k}: {exactitud:.2f}")

Exactitud del modelo con k=5: 0.79
Exactitud del modelo con k=10: 0.79
Exactitud del modelo con k=15: 0.80
Exactitud del modelo con k=20: 0.81
Exactitud del modelo con k=25: 0.81
Exactitud del modelo con k=30: 0.81
Exactitud del modelo con k=35: 0.81
Exactitud del modelo con k=40: 0.81
Exactitud del modelo con k=45: 0.81
Exactitud del modelo con k=50: 0.81
Exactitud del modelo con k=55: 0.81
Exactitud del modelo con k=60: 0.81
Exactitud del modelo con k=65: 0.81
Exactitud del modelo con k=70: 0.81
Exactitud del modelo con k=75: 0.81
Exactitud del modelo con k=80: 0.80
Exactitud del modelo con k=85: 0.81
Exactitud del modelo con k=90: 0.81
Exactitud del modelo con k=95: 0.80
