In [51]:
import numpy as np
import pandas as pd

from sklearn.model_selection import train_test_split # for preprocessing
from sklearn.preprocessing import StandardScaler

from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.neighbors import KNeighborsRegressor
from sklearn.neural_network import MLPRegressor
from sklearn.svm import LinearSVR, SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from xgboost import XGBRegressor
from lightgbm import LGBMRegressor
from catboost import CatBoostRegressor

import warnings
warnings.filterwarnings(action='ignore')

In [52]:
data_msk = pd.read_csv("moscow_prices.csv", sep='\t', on_bad_lines='skip')
data_msk

Unnamed: 0.1,Unnamed: 0,Магазин,Название товара,Цена,Дата
0,0,Пятерочка,хлебРжевский,61.99р. за единицу,29 июля 2022
1,1,Перекресток,гречкаМистраль ядрица,165р. за 1 кг,26 июля 2022
2,2,Магнит,ягодыСмородина,500р. за 1 кг,22 июля 2022
3,3,Пятëрочка,хлебчерный кирпичиком,20р. за 1 кг,19 июля 2022
4,4,Перекресток,колбасавязанка,299р. за 1 кг,18 июля 2022
...,...,...,...,...,...
93,93,5,сахарсахар,80р. за 1 кг,23 мая 2022
94,94,5,фруктыяблоки,100р. за 1 кг,23 мая 2022
95,95,5,капустакапуста,50р. за 1 кг,23 мая 2022
96,96,5,картофелькартошка,50р. за 1 кг,23 мая 2022


In [53]:
data_msk.drop("Unnamed: 0", axis=1, inplace=True)
data_msk

Unnamed: 0,Магазин,Название товара,Цена,Дата
0,Пятерочка,хлебРжевский,61.99р. за единицу,29 июля 2022
1,Перекресток,гречкаМистраль ядрица,165р. за 1 кг,26 июля 2022
2,Магнит,ягодыСмородина,500р. за 1 кг,22 июля 2022
3,Пятëрочка,хлебчерный кирпичиком,20р. за 1 кг,19 июля 2022
4,Перекресток,колбасавязанка,299р. за 1 кг,18 июля 2022
...,...,...,...,...
93,5,сахарсахар,80р. за 1 кг,23 мая 2022
94,5,фруктыяблоки,100р. за 1 кг,23 мая 2022
95,5,капустакапуста,50р. за 1 кг,23 мая 2022
96,5,картофелькартошка,50р. за 1 кг,23 мая 2022


In [54]:
print(data_msk.dtypes)

Магазин            object
Название товара    object
Цена               object
Дата               object
dtype: object


# Standard perprocessing again

In [55]:
data_msk["Название товара"] = data_msk["Название товара"].str.split('\n').str[0]
data_msk["Цена"] = data_msk["Цена"].str.split('\n').str[0]
data_msk["Цена"] = data_msk["Цена"].str.split('р').str[0]
data_msk["Цена"] = data_msk["Цена"].str.split('.').str[0]

data_msk

Unnamed: 0,Магазин,Название товара,Цена,Дата
0,Пятерочка,хлебРжевский,61,29 июля 2022
1,Перекресток,гречкаМистраль ядрица,165,26 июля 2022
2,Магнит,ягодыСмородина,500,22 июля 2022
3,Пятëрочка,хлебчерный кирпичиком,20,19 июля 2022
4,Перекресток,колбасавязанка,299,18 июля 2022
...,...,...,...,...
93,5,сахарсахар,80,23 мая 2022
94,5,фруктыяблоки,100,23 мая 2022
95,5,капустакапуста,50,23 мая 2022
96,5,картофелькартошка,50,23 мая 2022


In [56]:
data_msk["Магазин"] = data_msk["Магазин"].astype(str)
data_msk["Название товара"] = data_msk["Название товара"].astype(str)
data_msk["Цена"] = data_msk["Цена"].astype(str).astype(int)
data_msk["Дата"] = data_msk["Дата"].astype(str)

data_msk.dtypes

Магазин            object
Название товара    object
Цена                int64
Дата               object
dtype: object

# Preprocessing, scaling training

In [57]:
y = data_msk['Цена']
X = data_msk.drop('Цена', axis=1)


In [58]:
y

0      61
1     165
2     500
3      20
4     299
     ... 
93     80
94    100
95     50
96     50
97     50
Name: Цена, Length: 98, dtype: int64

In [70]:
X

Unnamed: 0,Магазин,Название товара,Дата
0,Пятерочка,хлебРжевский,29 июля 2022
1,Перекресток,гречкаМистраль ядрица,26 июля 2022
2,Магнит,ягодыСмородина,22 июля 2022
3,Пятëрочка,хлебчерный кирпичиком,19 июля 2022
4,Перекресток,колбасавязанка,18 июля 2022
...,...,...,...
93,5,сахарсахар,23 мая 2022
94,5,фруктыяблоки,23 мая 2022
95,5,капустакапуста,23 мая 2022
96,5,картофелькартошка,23 мая 2022


In [69]:
from sklearn.preprocessing import OrdinalEncoder, OneHotEncoder

# le = LabelEncoder()
# X = le.fit_transform(column)
# X
ohe = OneHotEncoder(sparse=False)
ohe.fit_transform(X)


array([[0., 0., 0., ..., 0., 0., 1.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [1., 0., 0., ..., 0., 0., 0.],
       [1., 0., 0., ..., 0., 0., 0.],
       [1., 0., 0., ..., 0., 0., 0.]])

I got an idea that way of ncoding could also affect the model results, so I'm experimenting with the encoder. This way, if I use one hot encoder, model learns relationship between shop and price in a way the relationship between one shop and not this shop, so we go for OrdinalEncoder instead of OneHotEncoder. 


In [84]:
oe = OrdinalEncoder()
X = oe.fit_transform(X)
# X

In [78]:
# Train-test split
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.7, shuffle=True, random_state=1)


In [80]:
X_train.mean()

9.519607843137255

In [81]:
y_train

87    1600
73    1000
69     119
38    1600
45     100
      ... 
75    1700
9       75
72      35
12     140
37     890
Name: Цена, Length: 68, dtype: int64

In [82]:
models = {
    "                     Linear Regression": LinearRegression(),
    " Linear Regression (L2 Regularization)": Ridge(),
    " Linear Regression (L1 Regularization)": Lasso(),
    "                   K-Nearest Neighbors": KNeighborsRegressor(),
    "                        Neural Network": MLPRegressor(),
    "Support Vector Machine (Linear Kernel)": LinearSVR(),
    "   Support Vector Machine (RBF Kernel)": SVR(),
    "                         Decision Tree": DecisionTreeRegressor(),
    "                         Random Forest": RandomForestRegressor(),
    "                     Gradient Boosting": GradientBoostingRegressor(),
    "                               XGBoost": XGBRegressor(),
    "                              LightGBM": LGBMRegressor(),
    "                              CatBoost": CatBoostRegressor(verbose=0)
}

# training all our models

for name, model in models.items():
    model.fit(X_train, y_train)
    print(name + " trained.")

                     Linear Regression trained.
 Linear Regression (L2 Regularization) trained.
 Linear Regression (L1 Regularization) trained.
                   K-Nearest Neighbors trained.
                        Neural Network trained.
Support Vector Machine (Linear Kernel) trained.
   Support Vector Machine (RBF Kernel) trained.
                         Decision Tree trained.
                         Random Forest trained.
                     Gradient Boosting trained.
                               XGBoost trained.
                              LightGBM trained.
                              CatBoost trained.


In [83]:
for name, model in models.items():
    print(name + " R^2 Score: {:.5f}".format(model.score(X_test, y_test))) 

                     Linear Regression R^2 Score: -0.87757
 Linear Regression (L2 Regularization) R^2 Score: -0.87712
 Linear Regression (L1 Regularization) R^2 Score: -0.87592
                   K-Nearest Neighbors R^2 Score: -0.61800
                        Neural Network R^2 Score: -0.01893
Support Vector Machine (Linear Kernel) R^2 Score: -0.02907
   Support Vector Machine (RBF Kernel) R^2 Score: -0.09191
                         Decision Tree R^2 Score: 0.98479
                         Random Forest R^2 Score: 0.53516
                     Gradient Boosting R^2 Score: 0.97079
                               XGBoost R^2 Score: 0.78757
                              LightGBM R^2 Score: -0.43907
                              CatBoost R^2 Score: 0.94200


# Outcome:
    
- We performed several ML on the same dataset, for two datasets  scrapped from tsenomer.ru: for Moscow and St. Petersburg.
- First round, with St. Petersburg prices, resulted in poor performance of the models, however, the winning one was XBoost. However, we came to conclusion, that models were overfitted, and continued the experiment.
- For second round we used a bigger dataset for prices in Moscow, and applied another encoding technique to the data.
- Decision Tree is the winner amongst the other models. 
- Feeding with more data definitely helped to increase performance
- So did the changing of the encoding method. For our purposes LabelEncoder() or OrdinarEncoder() is the best fit, since we want to teach the model the corelation between certain grocery shop and the price level in it (how does the shop affect the price). 