# Import bibliotek

In [14]:
import pandas as pd
import os
from sklearn.model_selection import train_test_split
from sklearn.metrics import *
from sklearn.linear_model import LinearRegression, Lasso, Ridge, ElasticNet
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from lightgbm import LGBMRegressor
from xgboost import XGBRegressor
from sklearn.neural_network import MLPRegressor
SEED = 17

$\text{Poniższy notebook przedstawia ogólny zarys projektu oraz pierwszy etap modelowania.}$<p>
$\text{Do modelowania danych wykorzystane zostaną następujące algorytmy:}$<p>
$\qquad\text{1. Regresja liniowa}$<p>
$\qquad\text{2. Lasso}$<p>
$\qquad\text{3. Rigde}$<p>
$\qquad\text{4. ElasticNet}$<p>
$\qquad\text{5. SVM Regressor}$<p>
$\qquad\text{6. Decision Tree}$<p>
$\qquad\text{7. RandomForest}$<p>
$\qquad\text{8. LightGBM}$<p>
$\qquad\text{9. XGBoost}$<p>
$\qquad\text{10. MLP Regressor}$

$\text{Dla każdego algorytmu indywidualnie zostaną wykonane procesy służące optymalizacji wyników:}$<p>
$\qquad\text{1. Usunięcie wartości odstających}$<p>
$\qquad\text{2. Feature Engineering (usuwanie skośności, skalowanie)}$<p>
$\qquad\text{3. Selekcja cech}$<p>
$\qquad\text{4. Optymalizacja hiperparametrów}$<p>
$\text{W celu porównania wyników zastosujemy walidację krzyżową, która pozwoli w bardziej obiektywny sposób ocenić jakość modeli.}$<p>
$\text{Metryką oceny modeli będzie Root Mean Squared Error (RMSE).}$<p>
$\text{Na końcu podsumujemy wyniki w formie tabeli, dzięki czemu będziemy mogli zweryfikować jak poszczególne powyższe procesy wpłynęły na jakość modeli.}$

# Podział zbioru

$\text{W celu ewaluacji modeli podzielmy zbiór na zbiór treningowy i testowy.}$<p>
$\text{Zbiór treningowy będzie zawierał 80\% danych, natomiast zbiór testowy 20\%.}$<p>
$\text{Ponieważ dane nie mają charakteru czasowego, podział będzie losowy.}$<p>
$\text{Zbiór testowy zostanie wykorzystany jedynie do ewaluacji modeli i nie będzie miał wpływu na proces trenowania i optymalizacji opisanych powyżej.}$

In [15]:
parent_dir = os.path.dirname(os.getcwd())
data = pd.read_csv(os.path.join(parent_dir, 'data//data_eda.csv'), index_col=0)
train_data, test_data = train_test_split(data, test_size=0.2, random_state=SEED, shuffle=True)
train_data.to_csv(os.path.join(parent_dir, 'data//train_data.csv'))
test_data.to_csv(os.path.join(parent_dir, 'data//test_data.csv'))

# Modele bazowe

$\text{Każdy z powyżej opisanych algorytmów wytrenowany zostanie na danych treningowych z domyślnymi hipermarametrami.}$<p>

In [16]:
target = "stars"
X_train = train_data.drop(target, axis=1)
y_train = train_data[target]
X_test = test_data.drop(target, axis=1)
y_test = test_data[target]

## 1. Regresja liniowa

In [17]:
model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("Linear Regression RMSE: {}".format(round(mean_squared_error(y_test, y_pred)**0.5, 5)))

Linear Regression RMSE: 0.23332


## 2. Lasso

In [18]:
model = Lasso(random_state=SEED)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("Lasso RMSE: {}".format(round(mean_squared_error(y_test, y_pred)**0.5, 5)))

Lasso RMSE: 0.29881


## 3. Ridge

In [19]:
model = Ridge(random_state=SEED)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("Ridge RMSE: {}".format(round(mean_squared_error(y_test, y_pred)**0.5, 5)))

Ridge RMSE: 0.23314


## 4. ElasticNet

In [20]:
model = ElasticNet(random_state=SEED)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("ElasticNet RMSE: {}".format(round(mean_squared_error(y_test, y_pred)**0.5, 5)))

ElasticNet RMSE: 0.29879


## 5. SVM Regressor

In [21]:
model = SVR()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("SVM Regressor RMSE: {}".format(round(mean_squared_error(y_test, y_pred)**0.5, 5)))

SVM Regressor RMSE: 0.29944


## 6. Decision Tree

In [22]:
model = DecisionTreeRegressor(random_state=SEED)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("Decision Tree RMSE: {}".format(round(mean_squared_error(y_test, y_pred)**0.5, 5)))

Decision Tree RMSE: 0.31403


## 7. Random Forest

In [23]:
model = RandomForestRegressor(random_state=SEED)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("Random Forest RMSE: {}".format(round(mean_squared_error(y_test, y_pred)**0.5, 5)))

Random Forest RMSE: 0.21355


## 8. LightGBM

In [24]:
model = LGBMRegressor(random_state=SEED, verbosity=-1)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("LGBM RMSE: {}".format(round(mean_squared_error(y_test, y_pred)**0.5, 5)))

LGBM RMSE: 0.19964


## 9. XGBoost

In [25]:
model = XGBRegressor(random_state=SEED)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("XGB RMSE: {}".format(round(mean_squared_error(y_test, y_pred)**0.5, 5)))

XGB RMSE: 0.2029


## 10. MLP Regressor

In [26]:
model = MLPRegressor(random_state=SEED)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("MLP RMSE: {}".format(round(mean_squared_error(y_test, y_pred)**0.5, 5)))

MLP RMSE: 283.28169
