# Practica siete

Grupo 14:
* Joaquín Ibáñez Penalva
* Aurora Zuoris

Para la realización de esta práctica se usará la librería de numpy, pandas, matplotlib, y sklearn.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import time

from sklearn.neighbors import KNeighborsClassifier, NearestCentroid
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay
from sklearn.preprocessing import MinMaxScaler

In [None]:
data = pd.read_csv('precio_casas_clasificacion.csv')

data.head()

# Ejercicio 1

In [None]:
# Apartado 1

X = data.drop('Precio', axis=1) # Eliminamos la columna precio
y = data['Precio'] # Obtenemos la columna precio
X.head() # Mostramos las 5 primeras filas de X
y.head() # Mostramos las 5 primeras filas de y

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # Dividimos los datos en train y test

In [None]:
# Apartado 2

for i in range(1, 21): # Probamos con 20 vecinos
    knn = KNeighborsClassifier(n_neighbors=i) # Creamos el modelo
    knn.fit(X_train, y_train) # Entrenamos el modelo
    y_pred = knn.predict(X_test) # Predecimos los valores
    print(f'K={i:>2} -> Accuracy: {accuracy_score(y_test, y_pred):.5f}') # Mostramos el accuracy

In [None]:
# Apartado 3

scaler = MinMaxScaler() # Creamos el objeto scaler para escalar los datos entre 0 y 1
X_train_scaled = scaler.fit_transform(X_train) # Escalamos los datos de entrenamiento
X_test_scaled = scaler.transform(X_test) # Escalamos los datos de test

Max_accuracy_apart3 = 0 # Variable para almacenar el accuracy máximo

for i in range(1, 21): # Probamos con 20 vecinos
    knn = KNeighborsClassifier(n_neighbors=i) # Creamos el modelo con el número de vecinos vecinos que queremos probar (i)
    knn.fit(X_train_scaled, y_train) # Entrenamos el modelo
    y_pred = knn.predict(X_test_scaled) # Predecimos los valores
    print(f'K={i:>2} -> Accuracy scaled: {accuracy_score(y_test, y_pred):.5f}') # Mostramos el accuracy
    if accuracy_score(y_test, y_pred) > Max_accuracy_apart3:
        Max_accuracy_apart3 = accuracy_score(y_test, y_pred)

Como se puede comprobar la tasa de acierto cuando está escalado es bastante mayor que cuando no lo está, ya que así nos aseguramos de que todo esté en la misma orden de magnitud por lo que todas las variables tienen la misma importancia independientemente de su escala.

In [None]:
# Apartado 4
# Calcular tiempo de ejecución del apartado 3 para ball_tree, kd_tree y brute y printearlo

inicio = time.time() # Guardamos el tiempo de inicio de la ejecución

for j in range(1, 5): # Probamos con 4 iteraciones
    for i in range(1, 21):
        knn = KNeighborsClassifier(n_neighbors=i, algorithm='ball_tree') 
        knn.fit(X_train_scaled, y_train)
        y_pred = knn.predict(X_test_scaled)

fin = time.time() # Guardamos el tiempo de fin de la ejecución
print(f'Tiempo de ejecución ball tree: {fin - inicio:.5f}') # Mostramos el tiempo de ejecución

inicio = time.time()

for j in range(1, 5):
    for i in range(1, 21):
        knn = KNeighborsClassifier(n_neighbors=i, algorithm='kd_tree')
        knn.fit(X_train_scaled, y_train)
        y_pred = knn.predict(X_test_scaled)

fin = time.time()
print(f'Tiempo de ejecución kd tree: {fin - inicio:.5f}')

inicio = time.time()

for j in range(1, 5):
    for i in range(1, 21):
        knn = KNeighborsClassifier(n_neighbors=i, algorithm='brute')
        knn.fit(X_train_scaled, y_train)
        y_pred = knn.predict(X_test_scaled)

fin = time.time()
print(f'Tiempo de ejecución brute: {fin - inicio:.5f}')

En el ordenador en el que se elaboró este apartado, el que más tarda es el de ball tree con 50 segundos aprox y el que menos el de kd tree con 18 segundos aprox. El brute tarda 25 segundos aprox, menos que el ball tree pero más que el kd tree. Con lo que lo más óptimo es usar el kd tree.

In [None]:
# Apartado 5

X_train_5, X_val, y_train_5, y_val = train_test_split(X_train_scaled, y_train, test_size=0.2, random_state=42) # Dividimos los datos de entrenamiento en train y validación (80% train y 20% validación)

print("------------ KNN con pesos uniformes --------------")

Max_accuracy_uniform = 0 # Variable para almacenar el accuracy máximo con pesos uniformes
Max_accuracy_k_uniform = 0 # Variable para almacenar el k con el que se obtiene el accuracy máximo con pesos uniformes

for i in range(1, 21):
    knn = KNeighborsClassifier(n_neighbors=i, weights='uniform') # Probamos con pesos uniformes
    knn.fit(X_train_5, y_train_5)
    y_pred = knn.predict(X_val)
    print(f'K={i:>2} -> Accuracy scaled weights = uniform: {accuracy_score(y_val, y_pred):.5f}')
    if accuracy_score(y_val, y_pred) > Max_accuracy_uniform: # Si el accuracy es mayor que el máximo actual, lo guardamos
        Max_accuracy_uniform = accuracy_score(y_val, y_pred) # Guardamos el accuracy máximo
        Max_accuracy_k_uniform = i # Guardamos el k con el que se obtiene el accuracy máximo

print("------------ KNN con pesos inversamente proporcionales a la distancia --------------")

Max_accuracy_distance = 0 # Variable para almacenar el accuracy máximo con pesos inversamente proporcionales a la distancia
Max_accuracy_k_distance = 0 # Variable para almacenar el k con el que se obtiene el accuracy máximo con pesos inversamente proporcionales a la distancia

for i in range(1, 21):
    knn = KNeighborsClassifier(n_neighbors=i, weights='distance') # Probamos con pesos inversamente proporcionales a la distancia (más cercanos tienen más peso)
    knn.fit(X_train_5, y_train_5)
    y_pred = knn.predict(X_val)
    print(f'K={i:>2} -> Accuracy scaled weights = distance: {accuracy_score(y_val, y_pred):.5f}')
    if accuracy_score(y_val, y_pred) > Max_accuracy_distance:
        Max_accuracy_distance = accuracy_score(y_val, y_pred)
        Max_accuracy_k_distance = i

print(f'El mejor accuracy con pesos uniformes es {Max_accuracy_uniform:.5f} con k = {Max_accuracy_k_uniform}')
print(f'El mejor accuracy con pesos inversamente proporcionales a la distancia es {Max_accuracy_distance:.5f} con k = {Max_accuracy_k_distance}')

if Max_accuracy_uniform > Max_accuracy_distance: # Comparamos los accuracy máximos para ver cuál es el mejor modelo
    best_k = Max_accuracy_k_uniform
    best_weights = 'uniform'
    print(f'El mejor modelo es con pesos uniformes es y k = {best_k}')
else:
    best_k = Max_accuracy_k_distance
    best_weights = 'distance'
    print(f'El mejor modelo es con pesos inversamente proporcionales a la distancia y k = {best_k}')


In [None]:
knn = KNeighborsClassifier(n_neighbors=best_k, weights=best_weights) # Creamos el modelo con el mejor k y los mejores pesos (uniform o distance, en este caso distance)
knn.fit(X_train_scaled, y_train) # Entrenamos el modelo
y_pred = knn.predict(X_test_scaled) # Predecimos los valores
print(f'Accuracy final: {accuracy_score(y_test, y_pred):.5f}') # Mostramos el accuracy

print(f'Max_accuracy_apart3: {Max_accuracy_apart3:.5f}') # Mostramos el accuracy máximo del apartado 3

# Ejercicio 2

In [None]:
class CentroideMasProximo:

    def __init__(self):
        self.centroides = None
        self.labels = None

    def ajustar(self, X, y):
        self.labels = np.unique(y)
        self.centroides = np.array([np.mean(X[y == label], axis=0) for label in self.labels])
        return self

    def predecir(self, X):
        distancias = np.array([np.linalg.norm(X - centroide, axis=1) for centroide in self.centroides])
        return self.labels[np.argmin(distancias, axis=0)]


In [None]:
X, y = data.iloc[:, :-1].values, data.iloc[:, -1].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

X_train.shape, X_test.shape, y_train.shape, y_test.shape

In [None]:
scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)  

for train, test  in [(X_train, X_test), (X_train_scaled, X_test_scaled)]:
  mine_tstart = time.time()
  cmp = CentroideMasProximo().ajustar(train, y_train)
  y_pred_mine = cmp.predecir(test)
  mine_tend = time.time()
  print("Nuestro:", accuracy_score(y_pred_mine, y_test), f"({mine_tend - mine_tstart:.2f}s)")

  their_tstart = time.time()
  nc = NearestCentroid().fit(train, y_train)
  y_pred_their = nc.predict(test)
  their_tend = time.time()
  print("Sklearn:", accuracy_score(y_pred_their, y_test), f"({their_tend - their_tstart:.2f}s)")

  cm = confusion_matrix(y_pred_their, y_pred_mine)

  disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=nc.classes_)
  disp.plot()
  plt.show()

Se puede ver que hay una concordancia del 100% entre la clase implementada y la de sklearn.
En cuanto a la utilidad de este algoritmo para el problema, tienen una taza del acierto del 23% y una de 45% al escalar las variables, por lo que el escalado de variables ayuda, pero aún así nó es muy útil.

A continuación está la matriz de confusión entre el predecido y el real.

In [None]:
cm = confusion_matrix(y_test, y_pred_mine)
ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=nc.classes_).plot()
plt.show()

Por último, se analiza el tiempo de ejecución de ambos algoritmos.

In [None]:
n = 1000

times_mine = []
for _ in range(n):
    tstart = time.time()
    cmp = CentroideMasProximo().ajustar(X_train_scaled, y_train)
    y_pred_mine = cmp.predecir(X_test_scaled)
    tend = time.time()
    times_mine.append(tend - tstart)

times_their = []

for _ in range(n):
    tstart = time.time()
    nc = NearestCentroid().fit(X_train_scaled, y_train)
    y_pred_their = nc.predict(X_test_scaled)
    tend = time.time()
    times_their.append(tend - tstart)

mine_mean = np.mean(times_mine)
mine_std = np.std(times_mine)

their_mean = np.mean(times_their)
their_std = np.std(times_their)

print(f"Nuestro \t μ: {mine_mean:.4f}s \t σ: {mine_std:.4f}s")
print(f"Sklearn \t μ: {their_mean:.4f}s \t σ: {their_std:.4f}s")


In [None]:
z = (mine_mean - their_mean) / np.sqrt(mine_std**2 / n + their_std**2 / n)
print(f"z: {z:.4f}")

En cuanto al tiempo de ejecución de ambos, se puede ver que el de sklearn es más rapido, ejecutandose por entre 10% y 20% más rapido. Y además tiene una menor desviación típica en su ejecución.
Calculando el z-score de la diferencia de ejecución, esta sale entre 10 y 20.
Teniendo en cuenta que un p-valor del 5% corresponde a un z-score de 1.96, se puede decir que la diferencia de ejecución es bastante significativa.