In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import r2_score

#Primero cargamos day.csv en el espacio de archivos
!wget https://archive.ics.uci.edu/static/public/275/bike+sharing+dataset.zip
!unzip bike+sharing+dataset.zip
df = pd.read_csv('day.csv')

#Consultamos los datos del dataframe
df.info()

In [None]:
#Evaluamos con EXCEL los atributos descriptores
#instant contiene un id para cada elemento por lo que no es necesario
#dteday contiene la fecha completa por lo que tampoco es necesario
#RECORDAD QUE SOLO NOS INTERESAN VALORES CATEGÓRICOS o VALORES #NUMÉRICOS QUE SE CORRELACIONEN CON MEDIDAS (humedad, temperatura, #distancia, peso, altura...)
# Por tanto, elimino del dataframe dichos atributos predictores
df = df.drop(['instant', 'dteday'], axis=1)
df.info()

In [None]:
#Además, comprobamos que las columnas season, yr, holiday, weekday, workingday y wheathersit son categóricas
#Aplicamos one hot encoding sobre el dataset para dichos atributos predictores
df = pd.get_dummies(df, columns=['season', 'yr', 'holiday', 'weekday', 'workingday', 'weathersit'])
df.info()

In [None]:
#Escojo los atributos predictores en x y la clase en y
x=df.drop(['cnt'], axis=1)
y=df['cnt']

# Creación de un regresor k-NN (k vecinos más cercanos)
reg = KNeighborsRegressor(n_neighbors=5)

# Entrenamiento del regresor
reg.fit(x, y)

# Predicción para datos de entrenamiento
y_pred = reg.predict(x)

# Coeficiente de determinación
r2_score = r2_score(y, y_pred)
print('Coef. de determinación R2: {r2_sc}'.format(r2_sc=r2_score))

In [None]:
# Elegimos dos variables numéricas para los ejes X e Y
# 'temp' (temperatura) y 'hum' (humedad) son buenas opciones para ver la relación con 'cnt'
plt.figure(figsize=(10, 6))

# Creamos el scatter plot
# c=y indica que el color dependerá del número de alquileres (cnt)
# cmap='viridis' aplica un degradado de color
scatter = plt.scatter(x['temp'], x['hum'], c=y_pred, cmap='viridis', edgecolor='k', alpha=0.7)

# Añadimos una barra de color para saber qué significa cada tono
cbar = plt.colorbar(scatter)
cbar.set_label('Número de alquileres (cnt)')

# Etiquetas de los ejes
plt.xlabel("Temperatura")
plt.ylabel("Humedad")
plt.title("Relación entre Temperatura, Humedad y Alquileres Predichos")

plt.show()