# Proyecto Python: clasificador KNN

## Lectura de datos

In [121]:
import numpy as np

In [122]:
# La variable síntomas contiene información de 2000 pacientes.
# La primera columna es la temperatura corporal y la segunda, la concentración de oxígeno

sintomas = np.load('./datasets/sintomas.npy')
print(sintomas)
print(sintomas.shape)

[[35.95150016 97.7293679 ]
 [35.89175305 98.37605467]
 [37.78687243 96.14125368]
 ...
 [36.17146993 98.12967918]
 [36.85791055 96.18333692]
 [37.60602681 95.43248407]]
(2000, 2)


In [123]:
# La variable etiquetas contiene la información sobre si un paciente está enfero - 1 - o san0 - 0.
etiquetas = np.load('./datasets/etiquetas.npy')
print(etiquetas)
print(etiquetas.shape)

[0. 0. 1. ... 0. 1. 1.]
(2000,)


## Desarrollo

In [124]:
# Tu código aquí. Crea tantas celdas como necesites :)

train_len = int(len(sintomas) * 0.8)

sintomas_train = sintomas[:train_len]
sintomas_test = sintomas[train_len:]

etiquetas_train = etiquetas[:train_len]
etiquetas_test = etiquetas[train_len:]

print(len(sintomas_train))
print(len(sintomas_test))

print(len(etiquetas_train))
print(len(etiquetas_test))

1600
400
1600
400


In [112]:
np.mean(sintomas_train, axis=0)

array([36.97694365, 97.02655062])

In [125]:
sintomas_train_n = sintomas_train - np.mean(sintomas_train, axis=0) / np.std(sintomas_train, axis=0)
sintomas_test_n = sintomas_test - np.mean(sintomas_train, axis=0) / np.std(sintomas_train, axis=0)

In [117]:
dist_arr = np.linalg.norm(sintomas_test_n[0] - sintomas_train_n,axis=1)
argmin = np.argmin(dist_arr)
pred = etiquetas_train[argmin]
pred

0.0

In [126]:
etiquetas_pred = list()

for test_sample in sintomas_test_n:
    dist_arr = np.linalg.norm(test_sample - sintomas_train_n,axis=1)
    argmin = np.argmin(dist_arr)
    pred = etiquetas_train[argmin]
    etiquetas_pred.append(pred)

etiquetas_pred = np.array([etiquetas_pred])

In [132]:
print((etiquetas_test == etiquetas_pred).mean() * 100)

87.0


In [131]:
aux = np.array([True, True, False])
aux.mean() * 100

66.66666666666666

In [128]:
etiquetas_test == etiquetas_pred

array([[ True,  True,  True,  True, False,  True,  True,  True, False,
        False,  True,  True,  True,  True,  True,  True,  True,  True,
         True, False, False,  True,  True,  True,  True,  True,  True,
        False,  True,  True,  True, False,  True,  True,  True,  True,
         True,  True,  True,  True,  True,  True,  True,  True,  True,
        False, False,  True,  True,  True,  True,  True,  True,  True,
         True,  True,  True, False,  True,  True,  True, False,  True,
         True,  True,  True, False, False,  True,  True,  True, False,
         True, False,  True,  True,  True,  True,  True,  True,  True,
         True,  True, False,  True,  True,  True,  True,  True,  True,
         True,  True, False,  True,  True,  True,  True,  True,  True,
         True,  True, False,  True,  True,  True,  True,  True,  True,
         True,  True,  True,  True, False, False,  True,  True, False,
        False,  True,  True,  True,  True,  True,  True,  True,  True,
      

## Extras

Conjuntos de test y train aleatorios

In [151]:
indices = np.array(range(len(etiquetas)))

np.random.shuffle(indices)

indices

array([ 957, 1350, 1744, ...,   30,  333, 1727])

In [152]:
train_len = int(len(sintomas) * 0.8)

indices_train = indices[:train_len]
indices_test = indices[train_len:]

sintomas_train = sintomas[indices_train]
sintomas_test = sintomas[indices_test]

etiquetas_train = etiquetas[indices_train]
etiquetas_test = etiquetas[indices_test]

In [145]:
sintomas_train_n = sintomas_train - np.mean(sintomas_train, axis=0) / np.std(sintomas_train, axis=0)
sintomas_test_n = sintomas_test - np.mean(sintomas_train, axis=0) / np.std(sintomas_train, axis=0)

etiquetas_pred = list()

for test_sample in sintomas_test_n:
    dist_arr = np.linalg.norm(test_sample - sintomas_train_n,axis=1)
    argmin = np.argmin(dist_arr)
    pred = etiquetas_train[argmin]
    etiquetas_pred.append(pred)

etiquetas_pred = np.array([etiquetas_pred])

print((etiquetas_test == etiquetas_pred).mean() * 100)

89.75


Tomar los K vecinos más cercanos en lugar de solo uno.

In [164]:
k = 7

sintomas_train_n = sintomas_train - np.mean(sintomas_train, axis=0) / np.std(sintomas_train, axis=0)
sintomas_test_n = sintomas_test - np.mean(sintomas_train, axis=0) / np.std(sintomas_train, axis=0)

etiquetas_pred = list()

for test_sample in sintomas_test_n:
    dist_arr = np.linalg.norm(test_sample - sintomas_train_n,axis=1)
    argsmin = np.argpartition(dist_arr, k)[:k]
    pred = round(etiquetas_train[argsmin].mean())
    etiquetas_pred.append(pred)

etiquetas_pred = np.array([etiquetas_pred])

print((etiquetas_test == etiquetas_pred).mean() * 100)

93.5


In [157]:
aux = np.argpartition(dist_arr, k)[:k]
aux

array([ 296,  201,   36, 1145,  545], dtype=int64)

In [161]:
round(etiquetas_train[argsmin].mean())

0.0