На сегодняшнем занятии будем работать с датасетом BlackFriday (ниже есть его описание):

https://www.kaggle.com/mehdidag/black-friday/version/1

Description The dataset here is a sample of the transactions made in a retail store. The store wants to know better the customer purchase behaviour against different products. Specifically, here the problem is a regression problem where we are trying to predict the dependent variable (the amount of purchase) with the help of the information contained in the other variables.

Classification problem can also be settled in this dataset since several variables are categorical, and some other approaches could be "Predicting the age of the consumer" or even "Predict the category of goods bought". This dataset is also particularly convenient for clustering and maybe find different clusters of consumers within it.

In [6]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

%pylab inline

Populating the interactive namespace from numpy and matplotlib


In [8]:
data = pd.read_csv('BlackFriday.csv')
data.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,City_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase
0,1000001,P00069042,F,0-17,10,A,2,0,3,,,8370
1,1000001,P00248942,F,0-17,10,A,2,0,1,6.0,14.0,15200
2,1000001,P00087842,F,0-17,10,A,2,0,12,,,1422
3,1000001,P00085442,F,0-17,10,A,2,0,12,14.0,,1057
4,1000002,P00285442,M,55+,16,C,4+,0,8,,,7969


# Подготовка данных

In [9]:
data.shape

(550068, 12)

In [10]:
missing_values = data.isnull().sum().sort_values(ascending = False)
missing_values.head()

Product_Category_3    383247
Product_Category_2    173638
Purchase                   0
Product_Category_1         0
Marital_Status             0
dtype: int64

Скорее всего NaN-ы в Product_Category_2 и Product_Category_3 означают, что человек не покупал продукты из этих категорий.

Поэтому можем заменить эти пропущенные значения на 0.

In [12]:
data = data.fillna(0)

Посмотрим, какие типы данных есть в нашем датасете.

Выведите на экран тип каждой колонки в таблице.

In [13]:

#your code here


Обработаем нечисловые колонки.

1) Выведите на экран все возможные значения из столбца Gender.

2) Замените в столбце Gender значение 'M' на 1, а 'F' на 0.

In [14]:
#your code here


Поработаем со столбцом Age.

1) Выведите на экран все возможные значения из столбца Age.

2) Напишите функцию для перевода каждого диапазона возрастов в число (самые маленькие возрасты - 0, следующий диапазон - 1 и т.д.). Замените значения в столбце Age на числовые, применив эту функцию.

In [15]:
data['Age'].unique()

array(['0-17', '55+', '26-35', '46-50', '51-55', '36-45', '18-25'],
      dtype=object)

In [18]:
def map_age(age):
    if age == '0-17':
        return 0
    elif age == '18-25':
        return 1
        #your code here
        
#data['Age'] = data['Age'].apply(map_age)

Обработаем столбец City_Category.

1) Выведите все уникальные значения данного столбца.

2) Закодируйте столбец с помощью OneHotEncoding (get_dummies).

In [19]:

#your code here
data['City_Category'].unique()

data = pd.get_dummies(data, columns=['City_Category'], dtype=int)
data.head()

Unnamed: 0,User_ID,Product_ID,Gender,Age,Occupation,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Purchase,City_Category_A,City_Category_B,City_Category_C
0,1000001,P00069042,F,0-17,10,2,0,3,0.0,0.0,8370,1,0,0
1,1000001,P00248942,F,0-17,10,2,0,1,6.0,14.0,15200,1,0,0
2,1000001,P00087842,F,0-17,10,2,0,12,0.0,0.0,1422,1,0,0
3,1000001,P00085442,F,0-17,10,2,0,12,14.0,0.0,1057,1,0,0
4,1000002,P00285442,M,55+,16,4+,0,8,0.0,0.0,7969,0,0,1


Наконец, обработаем Stay_In_Current_City_Years.

1) Выведите на экран все уникальные значения данного столбца.

2) Замените '4+' на 4, а все остальные значения оставьте как есть, но переведите их в числовой вид (x -> int(x)).

In [None]:
data['Stay_In_Current_City_Years'].unique()

def map_stay(years):
    #your code here
    
data['Stay_In_Current_City_Years'] = #your code here

In [None]:
data.head()

In [None]:
#Удалим столбцы User_ID и Product_ID, так как они не несут полезной для нас информации.


#your code here

data.head()

# Исследование данных

Как влияет пол на целевую переменную Purchase? Постройте диаграмму (barplot).

Как влияет возраст на целевую переменную Purchase? Постройте диаграмму (barplot).

Как влияет City_Category на целевую переменную Purchase? Постройте диаграмму (barplot).

In [None]:
#your code here
Нарисуйте матрицу корреляций признаков.

plt.figure(figsize=(12,9))
#your code here

# Масштабирование (нормализация) признаков в линейных моделях

В линейных и метрических (основанных на вычислении расстояния между объектами) моделях необходимо масштабировать признаки.

Нормализация признаков - приведение всех признаков к одинаковому масштабу (например, приведение всех значений на отрезок $[0;1]$).

Зачем нужна нормализация? Если машстабы измерений признаков существенно (на несколько порядков) различаются, то появляется опасноcть, что будут учитываться только «крупномасштабные» признаки.

Как делать нормализацию в Python: StandardScaler или MinMaxScaler из библиотеки sklearn.preprocessing.

# Построение модели

In [None]:
from sklearn.metrics import r2_score, mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler

X = data.copy()

y = data['Purchase']
X.drop(['Purchase'], axis=1, inplace=True)

indices = np.arange(len(X))

Xtrain, Xtest, ytrain, ytest, idx_train, idx_test = train_test_split(
                                                    X, y, indices, test_size=0.2, random_state=111)

scaler = StandardScaler().fit(Xtrain)
Xtrain = scaler.transform(Xtrain)
Xtest = scaler.transform(Xtest)

regressor = LinearRegression()
regressor.fit(Xtrain, ytrain)

ypred_train = regressor.predict(Xtrain)
ypred_test = regressor.predict(Xtest§)

r2_score(ytrain,ypred_train), r2_score(ytest,ypred_test)

Посмотрим на веса обученной модели.

In [None]:
coefficients = pd.concat([pd.DataFrame(X.columns),pd.DataFrame(np.transpose(regressor.coef_))], axis = 1)
coefficients

Добавим L1 регуляризацию.

In [None]:
from sklearn.linear_model import Lasso

regressor2 = Lasso(alpha=10)
regressor2.fit(Xtrain, ytrain)

ypred2 = regressor2.predict(Xtest)

print('Scores:', r2_score(ytest,ypred2), mean_squared_error(ytest,ypred2))
print(regressor2.coef_,'\n')


Посмотрим, что происходит при разных значениях параметра регуляризации $\alpha$

In [None]:
from sklearn.linear_model import Lasso

for a in np.arange(0.1,100.1,25):
    regressor2 = Lasso(alpha=a)
    regressor2.fit(Xtrain, ytrain)

    ypred2 = regressor2.predict(Xtest)

    print('alpha={}'.format(a))
    print('Scores:', r2_score(ytest,ypred2), mean_squared_error(ytest,ypred2))
    print(regressor2.coef_,'\n')



Видим, что L1-регуляризация зануляет некоторые веса и таким образом производит отбор признаков.

Подберем оптимальное значение параметра регуляризации по кросс-валидации

In [None]:
from sklearn.linear_model import LassoCV

n_alphas = 200
alphas = np.linspace(0.1, 10, n_alphas)

lasso_cv = LassoCV(alphas=alphas, 
                   cv=3, random_state=17)
lasso_cv.fit(X, y)

In [None]:

lasso_cv.coef_

In [None]:
lasso_cv.alpha_

Обучим модель с найденным параметром регуляризации $\alpha$

In [None]:

regressor2 = Lasso(alpha=lasso_cv.alpha_)

regressor2.fit(Xtrain, ytrain)

ypred2_train = regressor2.predict(Xtrain)
ypred2_test = regressor2.predict(Xtest)

print('Scores:', r2_score(ytrain,ypred2_train), r2_score(ytest,ypred2_test))
Добавим L2 регуляризацию.

In [None]:
from sklearn.linear_model import Ridge

for a in np.arange(-10,10.1,2.5):
    regressor3 = Ridge(alpha=a)
    regressor3.fit(Xtrain, ytrain)

    ypred3 = regressor3.predict(Xtest)

    print('alpha={}'.format(a))
    print('Scores:',r2_score(ytest,ypred3), mean_squared_error(ytest,ypred3))
    print(regressor3.coef_)


Ridge регрессия не зануляет веса (они могут быть очень маленькими, но ненулевыми).

Теперь подберем оптимальное a по кросс-валидации.

In [None]:
from sklearn.linear_model import RidgeCV

n_alphas = 200
ridge_alphas = np.logspace(-2, 6, n_alphas)

ridge_cv = RidgeCV(alphas=ridge_alphas, 
                   scoring='neg_mean_squared_error',
                   cv=3)
ridge_cv.fit(X, y)

In [None]:
ridge_cv.alpha_

In [None]:

regressor3 = Lasso(alpha=ridge_cv.alpha_)

regressor3.fit(Xtrain, ytrain)

ypred3_train = regressor3.predict(Xtrain)
ypred3_test = regressor3.predict(Xtest)

print('Scores:', r2_score(ytrain,ypred3_train), r2_score(ytest,ypred3_test))

Добавим одновременно и L1, и L2 регуляризацию.

У ElasticNet два параметра: alpha и l1_ratio. Используйте ElasticNet со значениями параметров alpha и l1_ratio равными 0.5.

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.ElasticNet.html



In [None]:
from sklearn.linear_model import ElasticNet