### 1. Импорт библиотек и подготовка датафрейма:

In [1]:
import pandas as pd
import random
import numpy as np
from scipy import stats

In [2]:
# Функция создания dataframe
def generate_group(start_date, end_date):
    # Вычисляем количество дней между начальной и конечной датами
    num_days = (pd.to_datetime(end_date) - pd.to_datetime(start_date)).days + 1

    df = pd.DataFrame({
        'date': pd.date_range(start=start_date, end=end_date),
        'sales': [random.randint(10, 10000) for _ in range(num_days)],
        'visitors': [random.randint(10, 10000) for _ in range(num_days)],
    })

    # преобразуем столбец date в тип данных datetime
    df['date'] = pd.to_datetime(df['date'])

    # добавляем столбец с прибылью
    df['revenue'] = df['sales'] * [random.randint(10, 100) for _ in range(num_days)]

    # добавляем столбец с маркетинговыми затратами
    df['marketing_costs'] = np.round(df['visitors'] * [random.uniform(1, 2) for _ in range(num_days)], 2)

    # добавляем столбец с иными затратами
    df['other_costs'] = np.round(df['revenue'] / [random.uniform(2, 10) for _ in range(num_days)], 2)

    # добавляем столбец с процентом конверсии посетителей в покупателей
    df['cr'] = np.round(df['sales'] / df['visitors'], 2)

    # добавляем столбец с доходом
    df['profit'] = df['revenue'] - df['marketing_costs'] - df['other_costs']

    return df

# Использованиe функции
start_date = '2020-01-01'
end_date = '2023-12-31'
a_group = generate_group(start_date, end_date)
b_group = generate_group(start_date, end_date)
c_group = generate_group(start_date, end_date)

# Добавление столбца 'group' в каждый датафрейм
a_group['group'] = 'a'
b_group['group'] = 'b'
c_group['group'] = 'c'

# Создание датафрейма с уникальными датами
dates_df = pd.DataFrame({'date': pd.date_range(start=start_date, end=end_date)})

# Объединение данных с датафреймом уникальных дат
df = pd.merge(dates_df, pd.concat([a_group, b_group, c_group]), on='date', how='left')

# Печать объединенного датафрейма
df

Unnamed: 0,date,sales,visitors,revenue,marketing_costs,other_costs,cr,profit,group
0,2020-01-01,9539,7619,772659,10966.20,114566.19,1.25,647126.61,a
1,2020-01-01,201,2430,15075,3946.27,6927.35,0.08,4201.38,b
2,2020-01-01,2422,9584,111412,15197.03,18925.90,0.25,77289.07,c
3,2020-01-02,4690,457,384580,645.62,113649.52,10.26,270284.86,a
4,2020-01-02,6711,9055,550302,10134.91,71591.91,0.74,468575.18,b
...,...,...,...,...,...,...,...,...,...
4378,2023-12-30,949,9353,88257,11550.20,10983.66,0.10,65723.14,b
4379,2023-12-30,8104,840,648320,1556.48,73564.89,9.65,573198.63,c
4380,2023-12-31,8611,6186,525271,6716.04,68557.77,1.39,449997.19,a
4381,2023-12-31,806,6796,38688,8914.72,5334.34,0.12,24438.94,b


### 2. Задания к датафрейму:

1. Однофакторный дисперсионный анализ (ANOVA) для групп без отличий.
2. Линейная регрессия для групп без отличий.
3. Однофакторный дисперсионный анализ (ANOVA) для групп с отличием.
4. Линейная регрессия для групп с отличием.

#### 1. Однофакторный дисперсионный анализ (ANOVA) для групп без отличий.

ANOVA используется для сравнения средних значений в трех или более группах и определения, есть ли статистически значимые различия между ними. В этом случае мы имеем три группы (a, b и c), и мы хотим определить, различаются ли их средние значения продаж.

In [3]:
# Проверка статистической значимости разницы в конверсии между группами
group_a_sales = df[df['group'] == 'a']['sales']
group_b_sales = df[df['group'] == 'b']['sales']
group_c_sales = df[df['group'] == 'c']['sales']

# Проведение однофакторного дисперсионного анализа (ANOVA)
f_stat, p_value = stats.f_oneway(group_a_sales, group_b_sales, group_c_sales)

if p_value < 0.05:
    print("df['sales'] - есть статистически значимая разница в продажах между группами\n")
else:
    print("df['sales'] - нет статистически значимой разницы в продажах между группами\n")

# Проверка статистической значимости разницы в конверсии между группами
group_a_visitors = df[df['group'] == 'a']['visitors']
group_b_visitors = df[df['group'] == 'b']['visitors']
group_c_visitors = df[df['group'] == 'c']['visitors']

# Проведение однофакторного дисперсионного анализа (ANOVA)
f_stat, p_value = stats.f_oneway(group_a_visitors, group_b_visitors, group_c_visitors)

if p_value < 0.05:
    print("df['visitors'] - есть статистически значимая разница в количистве посетителей между группами\n")
else:
    print("df['visitors'] - нет статистически значимой разницы в количистве посетителей между группами\n")

# Проверка статистической значимости разницы в конверсии между группами
group_a_revenue = df[df['group'] == 'a']['revenue']
group_b_revenue = df[df['group'] == 'b']['revenue']
group_c_revenue = df[df['group'] == 'c']['revenue']

# Проведение однофакторного дисперсионного анализа (ANOVA)
f_stat, p_value = stats.f_oneway(group_a_revenue, group_b_revenue, group_c_revenue)

if p_value < 0.05:
    print("df['revenue'] - есть статистически значимая разница в доходе между группами\n")
else:
    print("df['revenue'] - нет статистически значимой разницы в доходе между группами\n")

# Проверка статистической значимости разницы в конверсии между группами
group_a_conversion = df[df['group'] == 'a']['cr']
group_b_conversion = df[df['group'] == 'b']['cr']
group_c_conversion = df[df['group'] == 'c']['cr']

# Проведение однофакторного дисперсионного анализа (ANOVA)
f_stat, p_value = stats.f_oneway(group_a_conversion, group_b_conversion, group_c_conversion)

if p_value < 0.05:
    print("df['cr'] - есть статистически значимая разница в конверсии между группами\n")
else:
    print("df['cr'] - нет статистически значимой разницы в конверсии между группами\n")

# Проверка статистической значимости разницы в конверсии между группами
group_a_profit = df[df['group'] == 'a']['profit']
group_b_profit = df[df['group'] == 'b']['profit']
group_c_profit = df[df['group'] == 'c']['profit']

# Проведение однофакторного дисперсионного анализа (ANOVA)
f_stat, p_value = stats.f_oneway(group_a_profit, group_b_profit, group_c_profit)

if p_value < 0.05:
    print("df['profit'] - есть статистически значимая разница в прибыли между группами")
else:
    print("df['profit'] - нет статистически значимой разницы в прибыли между группами")

df['sales'] - нет статистически значимой разницы в продажах между группами

df['visitors'] - нет статистически значимой разницы в количистве посетителей между группами

df['revenue'] - нет статистически значимой разницы в доходе между группами

df['cr'] - нет статистически значимой разницы в конверсии между группами

df['profit'] - нет статистически значимой разницы в прибыли между группами


#### 2. Линейная регрессия для групп без отличий.

Линейная регрессия позволяет оценить, насколько изменение одной переменной (независимой переменной) связано с изменением другой переменной (зависимой переменной).

In [4]:
# Проверка влияния маркетинговых затрат на выручку
marketing_costs = df['marketing_costs']
revenue = df['revenue']

# Проведение линейной регрессии
slope, intercept, r_value, p_value, std_err = stats.linregress(marketing_costs, revenue)

if p_value < 0.05:
    print("df['revenue'] - маркетинговые затраты оказывают статистически значимое влияние на выручку")
else:
    print("df['revenue'] - маркетинговые затраты НЕ оказывают статистически значимого влияния на выручку")

# Проверка влияния других затрат на выручку
other_costs = df['other_costs']
revenue = df['revenue']

# Проведение линейной регрессии
slope, intercept, r_value, p_value, std_err = stats.linregress(other_costs, revenue)

if p_value < 0.05:
    print("df['revenue'] - другие затраты оказывают статистически значимое влияние на выручку\n")
else:
    print("df['revenue'] - другие затраты НЕ оказывают статистически значимого влияния на выручку\n")

# Проверка влияния маркетинговых затрат на прибыль
marketing_costs = df['marketing_costs']
profit = df['profit']

# Проведение линейной регрессии
slope, intercept, r_value, p_value, std_err = stats.linregress(marketing_costs, profit)

if p_value < 0.05:
    print("df['profit'] - маркетинговые затраты оказывают статистически значимое влияние на прибыль")
else:
    print("df['profit'] - маркетинговые затраты НЕ оказывают статистически значимого влияния на прибыль")

# Проверка влияния других затрат на прибыль
other_costs = df['other_costs']
profit = df['profit']

# Проведение линейной регрессии
slope, intercept, r_value, p_value, std_err = stats.linregress(other_costs, profit)

if p_value < 0.05:
    print("df['profit'] - другие затраты оказывают статистически значимое влияние на прибыль")
else:
    print("df['profit'] - другие затраты НЕ оказывают статистически значимого влияния на прибыль")

df['revenue'] - маркетинговые затраты НЕ оказывают статистически значимого влияния на выручку
df['revenue'] - другие затраты оказывают статистически значимое влияние на выручку

df['profit'] - маркетинговые затраты НЕ оказывают статистически значимого влияния на прибыль
df['profit'] - другие затраты оказывают статистически значимое влияние на прибыль


#### 3. Однофакторный дисперсионный анализ (ANOVA) для групп с отличием.

Теперь изменим изначальные параметры (sales, visitors и revenue) только у группы c и проверим результаты.

In [5]:
# Group c
def generate_group_c(start_date, end_date):
    # Вычисляем количество дней между начальной и конечной датами
    num_days = (pd.to_datetime(end_date) - pd.to_datetime(start_date)).days + 1

    df = pd.DataFrame({
        'date': pd.date_range(start=start_date, end=end_date),
        'sales': [random.randint(10, 5000) for _ in range(num_days)],
        'visitors': [random.randint(10, 5000) for _ in range(num_days)],
    })

    # преобразуем столбец date в тип данных datetime
    df['date'] = pd.to_datetime(df['date'])

    # добавляем столбец с прибылью
    df['revenue'] = df['sales'] * [random.randint(10, 200) for _ in range(num_days)]

    # добавляем столбец с маркетинговыми затратами
    df['marketing_costs'] = np.round(df['visitors'] * [random.uniform(1, 2) for _ in range(num_days)], 2)

    # добавляем столбец с иными затратами
    df['other_costs'] = np.round(df['revenue'] / [random.uniform(2, 10) for _ in range(num_days)], 2)

    # добавляем столбец с процентом конверсии посетителей в покупателей
    df['conversion_rate'] = np.round(df['sales'] / df['visitors'], 2)

    # добавляем столбец с доходом
    df['profit'] = df['revenue'] - df['marketing_costs'] - df['other_costs']

    return df


# Использованиe функции
start_date = '2020-01-01'
end_date = '2023-12-31'
a_group = generate_group(start_date, end_date)
b_group = generate_group(start_date, end_date)
c_group = generate_group_c(start_date, end_date)

# Добавление столбца 'group' в каждый датафрейм
a_group['group'] = 'a'
b_group['group'] = 'b'
c_group['group'] = 'c'

# Создание датафрейма с уникальными датами
dates_df = pd.DataFrame({'date': pd.date_range(start=start_date, end=end_date)})

# Объединение данных с датафреймом уникальных дат
df = pd.merge(dates_df, pd.concat([a_group, b_group, c_group]), on='date', how='left')

# Печать объединенного датафрейма
df

Unnamed: 0,date,sales,visitors,revenue,marketing_costs,other_costs,cr,profit,group,conversion_rate
0,2020-01-01,9407,2695,602048,4375.28,71943.13,3.49,525729.59,a,
1,2020-01-01,2563,8108,248611,14445.22,28188.67,0.32,205977.11,b,
2,2020-01-01,3004,3981,399532,7456.34,40988.86,,351086.80,c,0.75
3,2020-01-02,1133,3525,95172,4245.95,9686.06,0.32,81239.99,a,
4,2020-01-02,8484,2240,738108,2726.20,94743.40,3.79,640638.40,b,
...,...,...,...,...,...,...,...,...,...,...
4378,2023-12-30,5571,2873,378828,5405.85,98996.61,1.94,274425.54,b,
4379,2023-12-30,4545,3916,77265,6214.13,7812.35,,63238.52,c,1.16
4380,2023-12-31,308,6438,20944,6825.27,2352.89,0.05,11765.84,a,
4381,2023-12-31,5560,7058,544880,13264.68,84448.38,0.79,447166.94,b,


In [6]:
# Проверка статистической значимости разницы в конверсии между группами
group_a_sales = df[df['group'] == 'a']['sales']
group_b_sales = df[df['group'] == 'b']['sales']
group_c_sales = df[df['group'] == 'c']['sales']

# Проведение однофакторного дисперсионного анализа (ANOVA)
f_stat, p_value = stats.f_oneway(group_a_sales, group_b_sales, group_c_sales)

if p_value < 0.05:
    print("df['sales'] - есть статистически значимая разница в продажах между группами\n")
else:
    print("df['sales'] - нет статистически значимой разницы в продажах между группами\n")

# Проверка статистической значимости разницы в конверсии между группами
group_a_visitors = df[df['group'] == 'a']['visitors']
group_b_visitors = df[df['group'] == 'b']['visitors']
group_c_visitors = df[df['group'] == 'c']['visitors']

# Проведение однофакторного дисперсионного анализа (ANOVA)
f_stat, p_value = stats.f_oneway(group_a_visitors, group_b_visitors, group_c_visitors)

if p_value < 0.05:
    print("df['visitors'] - есть статистически значимая разница в количистве посетителей между группами\n")
else:
    print("df['visitors'] - нет статистически значимой разницы в количистве посетителей между группами\n")

# Проверка статистической значимости разницы в конверсии между группами
group_a_revenue = df[df['group'] == 'a']['revenue']
group_b_revenue = df[df['group'] == 'b']['revenue']
group_c_revenue = df[df['group'] == 'c']['revenue']

# Проведение однофакторного дисперсионного анализа (ANOVA)
f_stat, p_value = stats.f_oneway(group_a_revenue, group_b_revenue, group_c_revenue)

if p_value < 0.05:
    print("df['revenue'] - есть статистически значимая разница в доходе между группами\n")
else:
    print("df['revenue'] - нет статистически значимой разницы в доходе между группами\n")

# Проверка статистической значимости разницы в конверсии между группами
group_a_conversion = df[df['group'] == 'a']['cr']
group_b_conversion = df[df['group'] == 'b']['cr']
group_c_conversion = df[df['group'] == 'c']['cr']

# Проведение однофакторного дисперсионного анализа (ANOVA)
f_stat, p_value = stats.f_oneway(group_a_conversion, group_b_conversion, group_c_conversion)

if p_value < 0.05:
    print("df['cr'] - есть статистически значимая разница в конверсии между группами\n")
else:
    print("df['cr'] - нет статистически значимой разницы в конверсии между группами\n")

# Проверка статистической значимости разницы в конверсии между группами
group_a_profit = df[df['group'] == 'a']['profit']
group_b_profit = df[df['group'] == 'b']['profit']
group_c_profit = df[df['group'] == 'c']['profit']

# Проведение однофакторного дисперсионного анализа (ANOVA)
f_stat, p_value = stats.f_oneway(group_a_profit, group_b_profit, group_c_profit)

if p_value < 0.05:
    print("df['profit'] - есть статистически значимая разница в прибыли между группами")
else:
    print("df['profit'] - нет статистически значимой разницы в прибыли между группами")

df['sales'] - есть статистически значимая разница в продажах между группами

df['visitors'] - есть статистически значимая разница в количистве посетителей между группами

df['revenue'] - есть статистически значимая разница в доходе между группами

df['cr'] - нет статистически значимой разницы в конверсии между группами

df['profit'] - есть статистически значимая разница в прибыли между группами


#### 4. Линейная регрессия для групп с отличием.

In [7]:
# Проверка влияния маркетинговых затрат на выручку
marketing_costs = df['marketing_costs']
revenue = df['revenue']

# Проведение линейной регрессии
slope, intercept, r_value, p_value, std_err = stats.linregress(marketing_costs, revenue)

if p_value < 0.05:
    print("Маркетинговые затраты оказывают статистически значимое влияние на выручку (revenue)")
else:
    print("Маркетинговые затраты НЕ оказывают статистически значимого влияния на выручку (revenue)")

# Проверка влияния других затрат на выручку
other_costs = df['other_costs']
revenue = df['revenue']

# Проведение линейной регрессии
slope, intercept, r_value, p_value, std_err = stats.linregress(other_costs, revenue)

if p_value < 0.05:
    print("Другие затраты оказывают статистически значимое влияние на выручку (revenue)\n")
else:
    print("Другие затраты НЕ оказывают статистически значимого влияния на выручку (revenue)\n")

# Проверка влияния маркетинговых затрат на прибыль
marketing_costs = df['marketing_costs']
profit = df['profit']

# Проведение линейной регрессии
slope, intercept, r_value, p_value, std_err = stats.linregress(marketing_costs, profit)

if p_value < 0.05:
    print("Маркетинговые затраты оказывают статистически значимое влияние на прибыль (profit)")
else:
    print("Маркетинговые затраты НЕ оказывают статистически значимого влияния на прибыль (profit)")

# Проверка влияния других затрат на прибыль
other_costs = df['other_costs']
profit = df['profit']

# Проведение линейной регрессии
slope, intercept, r_value, p_value, std_err = stats.linregress(other_costs, profit)

if p_value < 0.05:
    print("Другие затраты оказывают статистически значимое влияние на прибыль (profit)")
else:
    print("Другие затраты НЕ оказывают статистически значимого влияния на прибыль (profit)")

Маркетинговые затраты оказывают статистически значимое влияние на выручку (revenue)
Другие затраты оказывают статистически значимое влияние на выручку (revenue)

Маркетинговые затраты НЕ оказывают статистически значимого влияния на прибыль (profit)
Другие затраты оказывают статистически значимое влияние на прибыль (profit)


Получаем верный результат. Значит все работает как нужно.