# Задание #
У вас есть набор данных о продажах из магазина SkyMarket, содержащий информацию о товарах, их ценах и количестве проданных единиц.

- Изучите характеристики продаж в различных категориях и сегментах.

- Проведите анализ зависимости между типом клиента и средним чеком, а также исследование различий в среднем чеке по категориям товаров.

- Рассчитайте коэффициент корреляции между ценой (Unit price) и рейтингом товара (Rating) для всего датафрейма, а также отдельно для каждого сегмента (Product line). Для каких сегментов наблюдается статистически значимая корреляция?

- Рассчитайте коэффициент корреляции между ценой (Unit price) и выручкой (Total_price) по всему датафрейму. Как вы можете объяснить наличие (или отсутствие) корреляции между этими переменными?

### Импортируем библиотеки и данные ###

In [None]:
### Импортируем библиотеки и данные

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import mannwhitneyu
from scipy.stats import pearsonr, spearmanr

df = pd.read_excel('SkyMarket_data.xlsx')
df.head()

### Проверяем данные ###

In [None]:
### Проверяем данные

df.info()

видим, что преобразование и корректировка данных не требуются

In [None]:
### Строим гистрграммы для столбцов

fig, (ax1, ax2, ax3) = plt.subplots(1, 3, figsize = (13,5))
fig.suptitle('Гистограммы данных датафрейма')

ax1.hist(df['Unit price'], bins=50, color = 'green', alpha=.5)
ax1.set_title('Распределение цен товаров')
ax1.set_xlabel('Цена за шт.')
ax1.set_ylabel('Кол-во цен')

ax2.hist(df['Quantity'], bins=50, color = 'gold', alpha=.5)
ax2.set_title('Распред. купленных штук')
ax2.set_xlabel('Кол-во товаров в покупке, шт.')
ax2.set_ylabel('Кол-во покупок')

ax3.hist(df['Total_price'], bins=50, color = 'blue', alpha=.5)
ax3.set_title('Распред. итоговых сумм покупок')
ax3.set_xlabel('Итоговая стоимость покупки, уе.')
ax3.set_ylabel('Кол-во покупок')

plt.show()

видим, что данные не распределены нормально

In [None]:
### Создадим выборки в разбивке по типам клиентов, расчитываем средние и медианы

df_memb = df[df['Customer type'] == 'Member']
df_memb['Total_price'].describe()

In [None]:

df_vip = df[df['Customer type'] == 'VIP']
df_vip['Total_price'].describe()

In [None]:
### Построим гистограммы для визуализации распределения суммы покупки по типам клиентов

plt.rcParams["figure.figsize"] = (11,6)

fig, ax = plt.subplots()
fig.suptitle('Распределение суммы покупки по типам клиентов')
ax.hist(df_memb['Total_price'], bins=50, color = 'blue', alpha=.5)
ax.hist(df_vip['Total_price'], bins=50, color = 'gold', alpha=.5)
ax.set_xlabel("Сумма покупки")
ax.set_ylabel("Кол-во покупок")
plt.show()

In [None]:
### Посмотрим на "ящике с усами" распределение сумм покупки по типам клиентов

sns.catplot(data = df_memb['Total_price'], kind="box", color = 'blue')
sns.catplot(data = df_vip['Total_price'], kind="box", color = 'gold')
plt.show()

видим, что данные не распределены нормально, есть и "усы(хвосты)" и выбросы

In [None]:
### Сравним распределение сумм покупки по типам клиентов

mw_stat, p_value = mannwhitneyu(x = df_memb['Total_price'], y = df_vip['Total_price'])
print(mw_stat)
print(p_value)

In [None]:

alpha = 0.05
if p_value >= alpha:
  print(f'Принимаем H0 - нет стат. значимой разницы между выборками. p value = {p_value}')
else:
  print(f'Принимаем H1 - видим стат. значимую разницу между выборками. p value = {p_value}')

## Вывод ##
на основании средних и медиан, а так же статистической проверки можем утверждать, что средний чек у клиентов разных типов различается. У VIP-клиентов он ниже, чем у обычных.

In [None]:
### Создадим выборки в разбивке по категориям продуктов, расчитываем средние и медианы

df_fd_and_bv = df[df['Product line'] == 'Food and beverages']
df_fd_and_bv['Total_price'].describe()

In [None]:

df_sp_and_tr = df[df['Product line'] == 'Sports and travel']
df_sp_and_tr['Total_price'].describe()

In [None]:
### Построим гистограммы для визуализации распределения суммы покупки по категориям продуктов

plt.rcParams["figure.figsize"] = (11,6)

fig, ax = plt.subplots()
fig.suptitle('Распределение суммы покупки по категориям продуктов')
ax.hist(df_fd_and_bv['Total_price'], bins=50, color = 'red', alpha=.5)
ax.hist(df_sp_and_tr['Total_price'], bins=50, color = 'green', alpha=.5)
ax.set_xlabel("Сумма покупки")
ax.set_ylabel("Кол-во покупок")
plt.show()

In [None]:

### Посмотрим на "ящике с усами" распределение сумм покупки по категориям продуктов

sns.catplot(data = df_fd_and_bv['Total_price'], kind="box", color = 'red')
sns.catplot(data = df_sp_and_tr['Total_price'], kind="box", color = 'green')
plt.show()

видим, что данные не распределены нормально, есть и "усы(хвосты)" и выбросы

In [None]:
### Сравним распределение сумм покупки по категориям продуктов

mw_stat1, p_value1 = mannwhitneyu(x = df_fd_and_bv['Total_price'], y = df_sp_and_tr['Total_price'])
print(mw_stat1)
print(p_value1)

In [None]:

alpha = 0.05
if p_value1 >= alpha:
  print(f'Принимаем H0 - нет стат. значимой разницы между выборками. p value = {p_value1}')
else:
  print(f'Принимаем H1 - видим стат. значимую разницу между выборками. p value = {p_value1}')

## Вывод ##
на основании средних и медиан, а так же статистической проверки можем утверждать, что средний чек по категориям продуктов "Food and beverages" и "Sports and travel" не различается.

In [None]:
### Функция, которая будет считать корреляцию Пирсона и Спирмена и выводить график рассеивания

def stat_ch(x_1, x_2, alpha = 0.05):
    corr_v_p, pvalue_v_p = pearsonr(x_1, x_2)
    print(f'Корреляция Пирсона. Коэффициент = {corr_v_p}. Статистическая значимость = {pvalue_v_p}.')
    print()
    print(f'Cтатистически ли значима корреляция между двумя переменными?')
    if pvalue_v_p < alpha:
        print(f'ДА по Пирсону')
    else:
        print(f'НЕТ по Пирсону')
    print()
    
    corr_v_s, pvalue_v_s = spearmanr(x_1, x_2)
    print(f'Корреляция Спирмена. Коэффициент = {corr_v_s}. Статистическая значимость = {pvalue_v_s}.')
    print()
    print(f'Cтатистически ли значима корреляция между двумя переменными?')
    if pvalue_v_s < alpha:
        print(f'ДА по Спирмену')
    else:
        print(f'НЕТ по Спирмену')

    print()
 
    sns.scatterplot(data = x_1, color = 'red', label = 'Цена за шт.')
    sns.scatterplot(data = x_2, color = 'green', label = 'Рейтинг покупки')
    plt.xlabel('Кол-во')
    plt.ylabel('Значение цены и рейтинга')
    plt.title('Распределение цен на товар и рейтинга покупок')
    
    plt.show()

In [None]:
### Применяем функцию корреляции stat_ch к столбцам Unit price и Rating

stat_ch(df['Unit price'], df['Rating'], alpha = 0.05)

In [None]:
### Применяем функцию корреляции stat_ch отдельно для каждого сегмента, используя цикл по уникальным значениям колонки Product line

prod_line = df['Product line'].unique()

for z in prod_line:
    print(f'Для сегмента {z}.')
    print()
    dff = df[df['Product line'] == z]
    stat_ch(dff['Unit price'], dff['Rating'], alpha = 0.05)

## Вывод ##
Статистически значимая корреляция наблюдается для сегментов "Health and beauty", "Sports and travel", "Fashion accessories".

Статистически значимой корреляции для сегментов "Electronic accessories", "Home and lifestyle", "Food and beverages" не наблюдается.

Предложение - товары с высоким рейтингом можно продавать дороже, можно отображать рейтинг товаров(отзывы) для потенциальных покупателей, чтобы побудить их приобрести более дорогие товары. Товары с низким рейтингом и низкой ценой можно выводить из ассортимента. Безусловно стоит обратить внимание на закупочную цену товара.
Для категорий "Electronic accessories", "Home and lifestyle", "Food and beverages": можно предположить что рейтинг не влияет на покупку в этих категориях, поскольку обучловлен необходимостью в электронике, обустройстве быта(уюта), питании.

In [None]:
### Применяем функцию корреляции stat_ch к столбцам Unit price и Total_price

stat_ch(df['Unit price'], df['Total_price'], alpha = 0.05)

## Вывод ##
Проверка и показывает статистически значимую корреляцию между выборками, поскольку выборки зависимые - на итоговую стоимость(т.е. значение выборки итоговой стоимости) влияют значения выборки цены за штуку.