# Importy

In [None]:
import pandas as pd
import numpy as np

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score, make_scorer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import MinMaxScaler

import eli5

%matplotlib inline

# Wczytywanie danych treningowych z Kaggle

In [None]:
train = pd.read_csv("../input/train.csv")

# Tworzenie funkcji która transformuje kolumnę datetime

In [None]:
def transform_dates(dataframe):
    dataframe["datetime"] = pd.to_datetime(dataframe["datetime"])
    dataframe["dayofweek"] = dataframe["datetime"].dt.dayofweek      #The day of the week with Monday=0, Sunday=6
    dataframe["year"] = dataframe["datetime"].dt.year
    dataframe["month"] = dataframe["datetime"].dt.month
    dataframe["day"] = dataframe["datetime"].dt.day
    dataframe["hour"] = dataframe["datetime"].dt.hour
    return dataframe

# Używanie funkcji transformującej datetime

In [None]:
train = transform_dates(train)

# Tworzenie X - dataframe ze zmiennymi niezależnymi i y - series ze zmienną zależną

In [None]:
X = train.drop(["count", "casual", "registered", "datetime"], axis = 1)
y = train["count"]

# Chcielibyśmy poznać jakość naszego modelu zanim wyślemy wyniki do Kaggle, w tym celu stworzymy "wewnętrzne" zbiory testowe i treningowe, 33% przeznaczymy na test

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

# Przygotowujemy parametry dla naszego modelu - RandomForestRegressor

In [None]:
parameters = {'n_estimators': [20], 'max_features': np.arange(0.1, 1.01, 0.1),
              'bootstrap': [True, False]}
forest = RandomForestRegressor()

# Oraz funkcję która będzie go oceniać

In [None]:
def rmsle(y, y_pred):
    assert len(y) == len(y_pred)
    return np.sqrt(np.mean((np.log(1+y_pred) - np.log(1+y))**2))

rmsle_score = make_scorer(rmsle, greater_is_better = False)

# Definiujemy naszą funkcję modelującą

In [None]:
regressor = GridSearchCV(estimator = forest, param_grid = parameters, 
                         return_train_score=True, scoring = rmsle_score)

# I ją trenujemy

In [None]:
regressor.fit(X = X_train, y = y_train)

# Sprawdzamy wagi naszych cech po treningu

In [None]:
eli5.explain_weights(regressor.best_estimator_, feature_names=X_train.columns.values)

# Dokonujemy predykcji na wewnętrznym zbiorze testowym

In [None]:
predicted = regressor.predict(X_test)
wyniki = pd.DataFrame(y_test)
wyniki["y_pred"] = predicted
wyniki.rename(columns = {"Klasa":"y_test"}, inplace = True)

# I sprawdzamy wynik

In [None]:
wewnetrzny_test = rmsle(y_pred = wyniki["y_pred"], y = wyniki["count"])
print(wewnetrzny_test)

# Wczytujemy zbiór testowy z kaggle

In [None]:
kaggle = pd.read_csv("../input/test.csv")
to_submit = kaggle

# Transformujemy daty w taki sam sposób

In [None]:
kaggle = transform_dates(kaggle)
kaggle = kaggle.drop(["datetime"], axis = 1)

# Dokonujemy predykcji

In [None]:
to_submit["count"] = regressor.predict(kaggle)

# I zapisujemy je na dysku w formacie CSV - pierwsze wysłanie wyników

In [None]:
to_submit[["datetime", "count"]].to_csv("../output/{}-results.csv".format(wewnetrzny_test), index = False)

# Wyskalujmy obserwacja od 0 do 1

In [None]:
skaler = MinMaxScaler()
skaler.fit(X_train)

X_train_scaled = skaler.transform(X_train)
X_test_scaled = skaler.transform(X_test)

# Definiujemy domyślne k-średnich

In [None]:
ksrednich = KMeans()

# I je trenujemy

In [None]:
ksrednich.fit(X_train_scaled)

# Zapisujemy je jako nową zmienną w X_train i X_test

In [None]:
X_train["ksrednich"] = ksrednich.predict(X_train_scaled)
X_test["ksrednich"] = ksrednich.predict(X_test_scaled)

# Ponownie trenujemy regressor na rozbudowanych danych

In [None]:
regressor.fit(X = X_train, y = y_train)

# I sprawdzamy, czy dołożenie nowej cechy coś w ogóle zmieniło

In [None]:
eli5.explain_weights(regressor.best_estimator_, feature_names=X_train.columns.values)

# Sprawdzamy wynik naszego modelu

In [None]:
predicted = regressor.predict(X_test)
wyniki = pd.DataFrame(y_test)
wyniki["y_pred"] = predicted
wyniki.rename(columns = {"Klasa":"y_test"}, inplace = True)

wewnetrzny_test = rmsle(y_pred = wyniki["y_pred"], y = wyniki["count"])
print(wewnetrzny_test)

# Wyskalujmy więc zbiór danych na których mamy dokonać predykcji, dodajmy klasteryzację i dokonajmy predykcji

In [None]:
kaggle_scaled = skaler.transform(kaggle)
kaggle["ksrednich"] = ksrednich.predict(kaggle_scaled)
to_submit["count"] = regressor.predict(kaggle)

# Zapisujemy na dysku - po raz drugi

In [None]:
to_submit[["datetime", "count"]].to_csv("../output/{}-results-kmeans-def.csv".format(wewnetrzny_test), index = False)

# Sprawdźmy jaka liczba k będzie optymalna według silhouette_score

In [None]:
ile_grup = range(2,21)

wyniki = []

for n_grup in ile_grup:    
    ksrednich = KMeans(n_clusters = n_grup, random_state = 42)
    przewidziane = ksrednich.fit_predict(X_train_scaled)

    # The silhouette_score gives the average value for all the samples.
    # This gives a perspective into the density and separation of the formed
    # clusters
    srednia_sylwetka = silhouette_score(X_train_scaled, przewidziane)
    print("Dla n_grup =", n_grup,
          "średnia sylwetka wynosi:", srednia_sylwetka)
    wyniki.append(srednia_sylwetka)

# I od razu przypiszmy tę liczbę do zmiennej k 

In [None]:
wyniki = pd.Series(wyniki, index=ile_grup)
k = wyniki[wyniki == wyniki.max()].index.item()

# Zobaczmy jescze przy okazji jak wygląda silhouette_score z zależności od k

In [None]:
wyniki.plot(grid = True)

# Skoro okazało się, że najlepsze k jest inne niż domyślnie, przeprowadźmy jeszcze raz cały proces

In [None]:
ksrednich = KMeans(n_clusters = k)
ksrednich.fit(X_train_scaled)

X_train["ksrednich"] = ksrednich.predict(X_train_scaled)
X_test["ksrednich"] = ksrednich.predict(X_test_scaled)

regressor.fit(X = X_train, y = y_train)

eli5.explain_weights(regressor.best_estimator_, feature_names=X_train.columns.values)

# Sprawdzenie jakości modelu

In [None]:
predicted = regressor.predict(X_test)
wyniki = pd.DataFrame(y_test)
wyniki["y_pred"] = predicted
wyniki.rename(columns = {"Klasa":"y_test"}, inplace = True)

wewnetrzny_test = rmsle(y_pred = wyniki["y_pred"], y = wyniki["count"])
print(wewnetrzny_test)

# Dokonajmy finalnej predykcji

In [None]:
kaggle["ksrednich"] = ksrednich.predict(kaggle_scaled)
to_submit["count"] = regressor.predict(kaggle)

# I zapiszmy dane na dysku po raz trzeci

In [None]:
to_submit[["datetime", "count"]].to_csv("../output/{}-results-kmeans-opt.csv".format(wewnetrzny_test), index = False)