In [23]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
from scipy.stats import shapiro, f_oneway, kruskal, pearsonr, spearmanr
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import OneHotEncoder
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error, mean_absolute_percentage_error
from time import strftime
from time import gmtime

**Регрессионное моделирование**

In [67]:
#Регрессионная модель количества продаж в день, исходя из соотношения рекламным каналов в день

# Целевая переменная
y = df.groupby('session_date')['payer'].sum().reset_index()['payer']

# Количество дневных заходов по рекламным каналам
x = df.groupby(['session_date', 'channel'])['user_id'].count().reset_index()

# Замена рекламных каналов на процент платящих пользователей по каналам
pro = {'социальные сети': 0.306, 'organic': 0.254, 'реклама у блогеров': 0.293, 'контекстная реклама': 0.264, 'email-рассылки': 0.261}

x['weigth'] = x['channel'].apply(lambda t: pro[t])

# Соотношение рекламных каналов
x['user_id'] = x['user_id'] * x['weigth']
x = x.groupby('session_date')['user_id'].sum().reset_index()['user_id']

df_merged = pd.DataFrame({'channel': x, 'sum_buy': y})

# СТРОИМ МОДЕЛЬ
x = pd.DataFrame()
x['channel'] = df_merged['channel']
y = df_merged['sum_buy']

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.15, random_state=42)

lin_regr = LinearRegression()
lin_regr.fit(x_train, y_train)
predict = lin_regr.predict(x_test)
predict = [round(i) for i in predict]

# ПРЕДСКАЗАНИЕ
print('predicted results =', predict)
print('real results ======', list(y_test))

# Анализ ошибок
r2 = round(r2_score(y_test, predict), 2)
MAPE = round(mean_absolute_percentage_error(y_test, predict) * 100, 2)
MAE = round(mean_absolute_error(y_test, predict), 2)
MSE = round(mean_squared_error(y_test, predict), 2)
RMSE = round(mean_squared_error(y_test, predict) ** 0.5, 2)
print('r2_score =', r2) #разница между выборками в наборе данных и прогнозами, сделанными моделью.
print('MAPE =', MAPE) #Средняя абсолютная процентная ошибка
print('MAE =', MAE) #абсолютная ошибку — то, насколько спрогнозированное число разошлось с фактическим числом
print('MSE =', MSE) # оценка среднего значения квадрата ошибок
print('RMSE =', RMSE) #среднее квадратичное различий между прогнозами

predicted results = [2, 1, 3, 2, 2, 2, 3, 1, 2, 1, 1, 2, 1, 1, 1, 2, 1, 1, 1, 2, 1, 1, 1, 0, 1, 1, 2, 2]
r2_score = -0.02
MAPE = 1.7692712821812666e+17
MAE = 0.93
MSE = 1.57
RMSE = 1.25


In [68]:
#Регрессионная модель количества продаж в день, исходя из соотношения регионов в день

# Целевая переменная
y = df.groupby('session_date')['payer'].sum().reset_index()['payer']

# Количество дневных заходов по регионам
x = df.groupby(['session_date', 'region'])['user_id'].count().reset_index()

# Замена регионов на процент платящих пользователей по регионам
pro = {'France': 0.223, 'Germany': 0.235, 'UK': 0.281, 'United States': 0.293}
x['weigth'] = x['region'].apply(lambda t: pro[t])

# Соотношение регионов
x['user_id'] = x['user_id'] * x['weigth']
x = x.groupby('session_date')['user_id'].sum().reset_index()['user_id']

df_merged = pd.DataFrame({'region': x, 'sum_buy': y})

# СТРОИМ МОДЕЛЬ
x = pd.DataFrame()
x['region'] = df_merged['region']
y = df_merged['sum_buy']

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.15, random_state=42)

lin_regr = LinearRegression()
lin_regr.fit(x_train, y_train)
predict = lin_regr.predict(x_test)
predict = [round(i) for i in predict]

# ПРЕДСКАЗАНИЕ
print('predicted results =', predict)
print('real results ======', list(y_test))

# Анализ ошибок
r2 = round(r2_score(y_test, predict), 2)
MAPE = round(mean_absolute_percentage_error(y_test, predict) * 100, 2)
MAE = round(mean_absolute_error(y_test, predict), 2)
MSE = round(mean_squared_error(y_test, predict), 2)
RMSE = round(mean_squared_error(y_test, predict) ** 0.5, 2)
print('r2_score =', r2) #разница между выборками в наборе данных и прогнозами, сделанными моделью.
print('MAPE =', MAPE) #Средняя абсолютная процентная ошибка
print('MAE =', MAE) #абсолютная ошибку — то, насколько спрогнозированное число разошлось с фактическим числом
print('MSE =', MSE) # оценка среднего значения квадрата ошибок
print('RMSE =', RMSE) #среднее квадратичное различий между прогнозами

predicted results = [2, 0, 3, 2, 2, 2, 3, 1, 2, 1, 1, 2, 1, 1, 1, 2, 1, 1, 1, 2, 1, 1, 1, 0, 1, 1, 2, 2]
r2_score = -0.09
MAPE = 1.7692712821812666e+17
MAE = 0.96
MSE = 1.68
RMSE = 1.3


In [69]:
#Регрессионная модель количества продаж в день, исходя из соотношения рекламных каналов в день и регионов в день

# целевая переменная
y = df.groupby('session_date')['payer'].sum().reset_index()['payer']

# количество дневных заходов по рекламным каналам
x1 = df.groupby(['session_date', 'channel'])['user_id'].count().reset_index()

# замена рекламных каналов на процент платящих пользователей по каналам
pro = {'социальные сети': 0.306, 'organic': 0.254, 'реклама у блогеров': 0.293, 'контекстная реклама': 0.264, 'email-рассылки': 0.261}
x1['weigth'] = x1['channel'].apply(lambda t: pro[t])

# количество дневных заходов по регионам
x2 = df.groupby(['session_date', 'region'])['user_id'].count().reset_index()

# замена регионов на процент платящих пользователей по регионам
pro = {'France': 0.223, 'Germany': 0.235, 'UK': 0.281, 'United States': 0.293}
x2['weigth'] = x2['region'].apply(lambda t: pro[t])

# соотношение рекламных каналов
x1['user_id'] = x1['user_id'] * x1['weigth']
x1 = x1.groupby('session_date')['user_id'].sum().reset_index()['user_id']

# соотношение регионов
x2['user_id'] = x2['user_id'] * x2['weigth']
x2 = x2.groupby('session_date')['user_id'].sum().reset_index()['user_id']

df_merged = pd.DataFrame({'channel': x1, 'region': x2, 'sum_buy': y})

# СТРОИМ МОДЕЛЬ
x = pd.DataFrame()
x['channel'] = df_merged['channel']
x['region'] = df_merged['region']
y = df_merged['sum_buy']

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.15, random_state=42)

lin_regr = LinearRegression()
lin_regr.fit(x_train, y_train)
predict = lin_regr.predict(x_test)
predict = [round(i) for i in predict]

# ПРЕДСКАЗАНИЕ
print('predicted results =', predict)
print('real results ======', list(y_test))

# Анализ ошибок
r2 = round(r2_score(y_test, predict), 2)
MAPE = round(mean_absolute_percentage_error(y_test, predict) * 100, 2)
MAE = round(mean_absolute_error(y_test, predict), 2)
MSE = round(mean_squared_error(y_test, predict), 2)
RMSE = round(mean_squared_error(y_test, predict) ** 0.5, 2)
print('r2_score =', r2) #разница между выборками в наборе данных и прогнозами, сделанными моделью.
print('MAPE =', MAPE) #Средняя абсолютная процентная ошибка
print('MAE =', MAE) #абсолютная ошибку — то, насколько спрогнозированное число разошлось с фактическим числом
print('MSE =', MSE) # оценка среднего значения квадрата ошибок
print('RMSE =', RMSE) #среднее квадратичное различий между прогнозами

predicted results = [2, 1, 3, 2, 2, 2, 3, 1, 2, 1, 1, 2, 1, 1, 1, 2, 1, 1, 1, 2, 2, 1, 1, 0, 1, 1, 2, 2]
r2_score = 0.01
MAPE = 1.7692712821812666e+17
MAE = 0.89
MSE = 1.54
RMSE = 1.24
