# Bike Sharing Demand

Zbiór danych "Bike Sharing Demand" dostępny jest na platformie Kaggle. Jest to zbiór danych zawierający informacje o wypożyczaniu rowerów w systemie Bike Sharing. Zawiera on dane dotyczące pogody, dnia tygodnia, miesiąca oraz informacje o ilości wypożyczonych rowerów w każdym z tych dni. Zbiór ten jest często wykorzystywany w zadaniach związanych z regresją i przewidywaniem popytu na usługi wypożyczalni rowerów.

Zawiera zmienne:

 - datetime - data i czas (w formacie "yyyy-mm-dd hh:mm:ss")
 - season - pora roku (1 - wiosna, 2 - lato, 3 - jesień, 4 - zima)
 - holiday - czy był to dzień świąteczny (1 - tak, 0 - nie)
 - workingday - czy był to dzień roboczy (1 - tak, 0 - nie)
 - weather - pogoda (1: Czyste, Bezchmurne, 2: Mgliste + Pochmurne, 3: Lekkie opady deszczu, Śnieg/Śnieg z Burzą, 4: Ulewny Deszcz/Grad)
 - temp - temperatura w skali Celcjusza
 - atemp - odczuwalna temperatura w skali Celcjusza
 - humidity - wilgotność powietrza
 - windspeed - prędkość wiatru
 - casual - liczba wypożyczeń dokonanych przez klientów nierejestrowanych w systemie
 - registered - liczba wypożyczeń dokonanych przez klientów zarejestrowanych w systemie
 - count - łączna liczba wypożyczeń (suma 'casual' i 'registered')

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pandas.plotting import register_matplotlib_converters
register_matplotlib_converters()
train = pd.read_csv("data/bike_train.csv", parse_dates=['datetime'], index_col=0)
train

In [None]:
train.info()

Jak widać nie ma braków danych, więc możemy przejść do eksploracji zmiennych.

In [None]:
columns = ['count', 'season', 'holiday', 'workingday', 'weather', 'temp',
       'atemp', 'humidity', 'windspeed', 'year', 'month', 'day', 'dayofweek','hour']

In [None]:
def add_features(df):
    df['year'] = df.index.year
    df['month'] = df.index.month
    df['day'] = df.index.day
    df['dayofweek'] = df.index.dayofweek
    df['hour'] = df.index.hour
add_features(train)
train

In [None]:
plt.plot(train.loc['2011']['count'],label='2011')
plt.plot(train.loc['2012']['count'],label='2012')
plt.xticks(fontsize=14, rotation=45)
plt.xlabel('Date')
plt.ylabel('Rental Count')
plt.title('2011 and 2012 Rentals (Year to Year)')
plt.legend()
plt.show()

In [None]:
plt.plot(train.loc['2011']['count'].map(np.log1p),label='2011')
plt.plot(train.loc['2012']['count'].map(np.log1p),label='2012')
plt.xticks(fontsize=14, rotation=45)
plt.xlabel('Date')
plt.ylabel('Log(Rental Count)')
plt.title('2011 and 2012 Rentals (Year to Year)')
plt.legend()
plt.show()

In [None]:
plt.boxplot([train['count']], labels=['count'])
plt.title('Box Plot - Count')
plt.ylabel('Target')
plt.grid(True)

In [None]:
plt.boxplot([train['count'].map(np.log1p)], labels=['log1p(count)'])
plt.title('Box Plot - log1p(Count)')
plt.ylabel('Target')
plt.grid(True)

Na podstawie powyższych wykresów można podejrzewać, że lepiej będzie modelować logarytm zamiast surowej wartości.

In [None]:
train["count"] = train["count"].map(np.log1p)

In [None]:
# ZADANIE: Podziel zbiór na treningowy i testowy
from sklearn.model_selection import train_test_split

X, y = train.drop(columns=___), train["count"]
X_train, X_test, y_train, y_test = ___

In [None]:
from sklearn.metrics import mean_squared_error, mean_absolute_error
from sklearn.preprocessing import StandardScaler, OneHotEncoder, MinMaxScaler
from sklearn.compose import ColumnTransformer

categorical_features = ['season','holiday','workingday','weather']
standardize_features = ['temp', 'atemp', 'humidity', 'windspeed','year','month', 'day', 'dayofweek', 'hour']

In [None]:
# ZADANIE: Wykonaj normalizację zmiennych i one-hot encoding
colTransformer = ___([('onehot',
                                     ___(categories='auto', sparse=False),
                                     ___),
                                    ('standardize',
                                    ___, ___)
                                   ],
                                   remainder="passthrough")
___
X_train_encoded = ___
X_test_encoded = ___

In [None]:
X_test_encoded.shape

In [None]:
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense, Dropout

# ZADANIE: Zbuduj MLP z 1 warstwą ukrytą i 100 neuronami
___
# ZADANIE: Skompiluj model
___
# ZADANIE: Wytrenuj model
___

In [None]:
yhat = model.predict(X_test_encoded)
score = mean_absolute_error(y_test, yhat)
print('MAE: %.3f' % score)

In [None]:
yhat = np.expm1(model.predict(X_test_encoded))
score = mean_absolute_error(np.expm1(y_test), yhat)
print('MAE: %.3f' % score)

In [None]:
plt.title('Learning Curves')
plt.xlabel('Epoch')
plt.ylabel('Mean Squared Error')
plt.plot(history.history['loss'][5:], label='train')
plt.plot(history.history['val_loss'][5:], label='val')
plt.legend()
plt.show()

In [None]:
all_encoded = colTransformer.transform(train)
result = pd.DataFrame({
    'real': train['count'].map(np.expm1),
    'predicted': np.expm1(model.predict(all_encoded))[:,0]
})

plt.plot(result['real'], label='Actual')
plt.plot(result['predicted'], label='Predicted')
plt.xlabel('Sample')
plt.ylabel('Count')
plt.title('Predicted Vs. Actual')
plt.legend()
plt.show()