In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error

In [None]:

############################################################################################
############################################################################################
############################################################################################
######################    train test split and fitting ML models        ####################
############################################################################################
############################################################################################
############################################################################################
data = pd.read_csv(
    "../Datasets/air_qual_preprocessed.csv",
    parse_dates=["Date_Time"],
    index_col=["Date_Time"],
)

data.head()


print(data.index.min())
print(data.index.max())

X_train = data[data.index <= "2005-03-04"]
X_test = data[data.index > "2005-03-04"]


y_train = X_train["CO_sensor"].copy()
y_test = X_test["CO_sensor"].copy()

# remove raw time series from predictors set
X_train = X_train.drop("CO_sensor", axis=1)
X_test = X_test.drop("CO_sensor", axis=1)



##############################  RF model ################################
rf_model = RandomForestRegressor(
    n_estimators=50,
    max_depth=3,
    random_state=0,
)

rf_model.fit(X_train, y_train)

# Performance of random forests
print("train rmse: ", mean_squared_error(
    y_train, rf_model.predict(X_train), squared=False,))
print("test rmse: ",  mean_squared_error(
    y_test, rf_model.predict(X_test), squared=False,))




###########################  Linear Regression ##############################
linear_model = Lasso(alpha=100, random_state=0)
linear_model.fit(X_train, y_train)


####  Performance of linear model
print("train rmse: ", mean_squared_error(
    y_train, linear_model.predict(X_train), squared=False,))
print("test rmse: ",  mean_squared_error(
    y_test, linear_model.predict(X_test), squared=False,))





##############       Let's now plot the feature's importance     ############################ 
# according to the linear model.

# Create series with feature importance.
tmp = pd.Series(np.abs(linear_model.coef_))

# Let's add the variable names.
tmp.index = X_train.columns

# Let's make a bar plot.
tmp.plot.bar(figsize=(15, 6))
plt.title("Feature importance")
plt.ylabel("Importance")
