# **Описание проекта: исследование интернет-магазина «Подарочек»**

В качестве тестового задания исследуйте данные онлайн-магазина подарков.

Магазин зачастую отправляет товары по почте, работает как с оптовыми, так и с розничными покупателями. 

Вы должны применить Python для анализа данных и показать, что можете самостоятельно решить задачу по исследованию данных, сегментации клиентов и проверке статистических гипотез.

## Описание данных

__Основной датасет (df)__
- entry_date — дата записи;
- order_id — идентификационный номер заказа;
- customer_id — идентификационный номер клиента;
- quantity — количество;
- price — цена;
- name_clust — автоматически присвоенная группа записи на основе названия;
- entry_id — идентификационный номер записи;
- country_id — идентификационный номер страны.

__Текстовое описание записей (df_text)__
- entry_id — идентификационный номер записи;
- entry — запись.

Датасеты содержит данные, которые несут в себе информацию о клиентах онлайн магазина Подарочек
- основной датасет содержит информацию о заказах, включая дату, идентификаторы заказов и клиентов, количество товаров, их цену

- текстовый датасет дополняет основной датасет описаниями записей

__Цель работы__

- Необходимо исследовать данные онлайн-магазина подарков с целью анализа поведения клиентов, сегментации их на основе различных характеристик и проверки статистических гипотез. 
- Данный проект  поможет  как понять исследуемых клиентов,так и  улучшить взаимодействие компании  с ними, что приведет к повышению эффективность бизнесса компании.

__План работы:__ <a name="chapter0"></a>
- [Шаг 1. Получение, осмотр и объединение данных](#chapter1)
  - Загрузка данных из csv-файлов в датафреймы.
  - Изучить общую информацию о датафреймах.
  -  Проверить наличие пропусков и принять решение о их заполнении.
  - Проверить наличие дубликатов и принять решение о их удалении.
  - Привести типы данных в каждом столбце к нужным форматам.
  -  Проверить соответствие идентификационных номеров.
  -  Объединить информацию из всех датафреймов в один.
-  [Шаг 2. Предобработка и начало исследовательского анализа](#chapter2)
   -  Найдите выбросы и аномальные значения в столбцах price и quantity, рассчитайте сумму стоимости каждой товарной позиции в датасете, примите и реализуйте решение о сохранении или отбрасывании подозрительных данных.
   -  Изучите столбцы order_id, customer_id, name_clust, entry_id и country_id.
   -  Изучите полноту данных, анализируя время записей. Посчитайте по месяцам количество дней, в которых не было продаж. Выберите период для анализа, содержащий основную часть данных, и далее работайте только с актуальными данными.

- [Шаг 3. Расчёт метрик](#chapter3)
    - Оцените по часам и дням недели количество заказов и количество уникальных покупателей. Постройте графики и сделайте вывод о наличии цикличности в покупательской активности.
    - Рассчитайте по месяцам среднюю выручку с клиента в день и количество уникальных покупателей. Сделайте вывод о наличии или отсутствии сезонности, если это возможно.
    - Рассчитайте стики-фактор за второй и третий квартал 2019 года.
    - Составьте профиль каждого клиента, включите в профиль количество заказов, дату первого и последнего заказа, общую сумму всех заказов, среднюю цену заказа, а также другие показатели по вашему выбору.
    - Разделите клиентов на возвратных и нет по признаку наличия повторных покупок, для каждой из групп на основе профилей клиентов (когда это возможно) рассчитайте средние показатели и оцените их.
- [Шаг 4. Проведение RFM-сегментацию клиентов](#chapter4)
    - разделите клиентов на группы по методике RFM;
    - оцените получившиеся группы, найдите похожие и различающиеся;
    - сформулируйте рекомендации для бизнеса по взаимодействию с сегментами, сопроводив их подходящими графиками и таблицами.
- [Шаг 5.Проверка статистических гипотез](#chapter5)
    - Сравните доли возвратных и невозвратных клиентов за второй и третий квартал 2019 года при помощи подходящего статистического теста.
    - Сравните средние чеки в странах с country_id, равному 3, 6 и 24. На основе статистических тестов сделайте вывод о том, отличаются ли средние чеки в этих странах или нет.
    - Сформулируйте собственную гипотезу и проверьте её.
- [Шаг 6. Выводы по проекту](#chapter6)
    - Опишите полученные результаты и зафиксируйте итоговый вывод проведённого исследования.

# Шаг 1. Получение, осмотр и объединение данных <a name="chapter1"></a>

1. Загрузка данные из csv-файлов в датафреймы.

In [70]:
import pandas as pd
df = pd.read_csv('https://code.s3.yandex.net/datasets/gift.csv')
df

Unnamed: 0,entry_date,order_id,customer_id,quantity,price,name_clust,entry_id,country_id
0,12/01/2018 08:26,3031,2150,6,339,740,891,28
1,12/01/2018 08:26,3031,2150,8,275,132,1596,28
2,12/01/2018 08:26,3031,2150,6,339,197,166,28
3,12/01/2018 08:26,3031,2150,2,765,767,1810,28
4,12/01/2018 08:26,3031,2150,6,425,383,2585,28
...,...,...,...,...,...,...,...,...
356935,12/09/2019 12:50,48253,7320,12,85,556,2723,5
356936,12/09/2019 12:50,48253,7320,6,210,144,1246,5
356937,12/09/2019 12:50,48253,7320,4,415,144,1241,5
356938,12/09/2019 12:50,48253,7320,4,415,114,2811,5


In [71]:
df_text = pd.read_csv('https://code.s3.yandex.net/python-for-analytics/gift_entry.csv', sep=';', error_bad_lines=False, warn_bad_lines=True)
df_text

Unnamed: 0,entry_id,entry
0,0,
1,1,10-цветная ручка Spaceboy
2,2,"12 карандашей, черепа"
3,3,"12 карандашей, высокий тюбик, лесной массив"
4,4,"12 карандашей, маленький тюбик с черепом"
...,...,...
2912,2912,яйцо с подвесным украшением из слоновой кости
2913,2913,янтарное массивное колье из стекла+бусины
2914,2914,яркие голубые ленты
2915,2915,"ящик для хранения большой, черепа"


 2. Изучите общую информацию о датафреймах.

In [72]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 356940 entries, 0 to 356939
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype 
---  ------       --------------   ----- 
 0   entry_date   356940 non-null  object
 1   order_id     356940 non-null  int64 
 2   customer_id  356940 non-null  int64 
 3   quantity     356940 non-null  int64 
 4   price        356940 non-null  int64 
 5   name_clust   356940 non-null  int64 
 6   entry_id     356940 non-null  int64 
 7   country_id   356940 non-null  int64 
dtypes: int64(7), object(1)
memory usage: 21.8+ MB


- в основном датафрейме нет пропусков данных
- стобец entry_date имеет тип object (строки), в дальнейшим преобразуем в тип данных datetime
- остальные стообцы имеют тип int64, что соответствует числовым значениям

In [73]:
df_text.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2917 entries, 0 to 2916
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   entry_id  2917 non-null   int64 
 1   entry     2916 non-null   object
dtypes: int64(1), object(1)
memory usage: 45.7+ KB


- в текстовом датафрейме есть пропуск в entry
      - в дальнешим  заполним пропуски значением 'Unknown' 
- столбец entry_id имеет тип int64, что соответствует числовым значениям идентификаторов.
- столбец entry имеет тип object, что соответствует текстовым значениям записей.

3. Проверьте наличие пропусков, примите решение о заполнении.

In [74]:
df.isnull().sum()

entry_date     0
order_id       0
customer_id    0
quantity       0
price          0
name_clust     0
entry_id       0
country_id     0
dtype: int64

- продублируем процесс, хотя еще в info было показано,что пропуско в этом файле нет

In [75]:
df_text.isnull().sum()

entry_id    0
entry       1
dtype: int64

In [76]:
df_text['entry'].fillna('Unknown', inplace=True)
df_text.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2917 entries, 0 to 2916
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   entry_id  2917 non-null   int64 
 1   entry     2917 non-null   object
dtypes: int64(1), object(1)
memory usage: 45.7+ KB


___данные в столбце entry не содержат пропусков___

4. Проверьте наличие дубликатов, примите решение об удалении

In [77]:
df.shape

(356940, 8)

In [78]:
df_text.shape

(2917, 2)

In [79]:
# Рассчитаем количество дубликатов
duplicates_df = df.duplicated().sum()
print(f"Количество дубликатов в основном файле: {duplicates_df}")
print(f"Процент дубликатов в основном файле: {(duplicates_df / df.shape[0]) *100:.2f}%")

Количество дубликатов в основном файле: 3573
Процент дубликатов в основном файле: 1.00%


In [80]:
# Рассчитаем количество дубликатов
duplicates_df_text = df_text.duplicated().sum()
print(f"Количество дубликатов в текстовом файле: {duplicates_df_text}")
print(f"Процент дубликатов в текстовом файле: {(duplicates_df_text / df_text.shape[0]) *100:.2f}%")

Количество дубликатов в текстовом файле: 0
Процент дубликатов в текстовом файле: 0.00%


- таким образом дупликаты встречаются только в текстовом файле и их объём составляет 1 процент
- их решено удалить

In [81]:
df=df.drop_duplicates()

In [82]:
# Рассчитаем количество дубликатов
duplicates_df = df.duplicated().sum()
print(f"Количество дубликатов в основном файле: {duplicates_df}")

Количество дубликатов в основном файле: 0


5. Рассмотрите типы данных в каждом столбце, приведите типы (если нужно)

In [83]:
# Проверка типов данных в основном датафрейме
print(df.dtypes)

entry_date     object
order_id        int64
customer_id     int64
quantity        int64
price           int64
name_clust      int64
entry_id        int64
country_id      int64
dtype: object


In [84]:
# Проверка типов данных в текстовом датафрейме
print(df_text.dtypes)

entry_id     int64
entry       object
dtype: object


- в основном датафрейме необходимо в столбце entry_date в тип datetime
- в текстовом датафрейме типы данных корректны

In [86]:
# Преобразование столбца entry_date в тип datetime
df['entry_date'] = pd.to_datetime(df['entry_date'])

# Проверка типов данных после преобразования
print(df.dtypes)

entry_date     datetime64[ns]
order_id                int64
customer_id             int64
quantity                int64
price                   int64
name_clust              int64
entry_id                int64
country_id              int64
dtype: object


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['entry_date'] = pd.to_datetime(df['entry_date'])


In [87]:
# Преобразование столбца entry_date в тип datetime с использованием .loc
df.loc[:, 'entry_date'] = pd.to_datetime(df['entry_date'])

# Проверка типов данных после преобразования
print(df.dtypes)

entry_date     datetime64[ns]
order_id                int64
customer_id             int64
quantity                int64
price                   int64
name_clust              int64
entry_id                int64
country_id              int64
dtype: object


6. Проверьте соответствие идентификационных номеров.

In [88]:
# Проверка соответствия идентификационных номеров
print(df['entry_id'].isin(df_text['entry_id']).all())

True


In [89]:
print(df['entry_id'].nunique())
print(df_text['entry_id'].nunique())

2917
2917


Количество уникальных идентификаторов entry_id в обоих датафреймах совпадает и составляет 2917.

 7. Объедините информацию из всех датафреймов в один.

In [90]:
# Объединение информации из обоих датафреймов
comb_data = pd.merge(df, df_text, on='entry_id', how='left')

# Проверка первых строк объединенного датафрейма
display(comb_data.head())

Unnamed: 0,entry_date,order_id,customer_id,quantity,price,name_clust,entry_id,country_id,entry
0,2018-12-01 08:26:00,3031,2150,6,339,740,891,28,белый металлический фонарь
1,2018-12-01 08:26:00,3031,2150,8,275,132,1596,28,кремовая вешалка в форме сердечек Купидона
2,2018-12-01 08:26:00,3031,2150,6,339,197,166,28,Вязаная грелка с флагом Союза
3,2018-12-01 08:26:00,3031,2150,2,765,767,1810,28,набор 7 скворечников для бабушек
4,2018-12-01 08:26:00,3031,2150,6,425,383,2585,28,стеклянный матовый держатель в форме звезды


In [91]:
# Проверка типов данных и информации о датафрейме
print(comb_data.info())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 353367 entries, 0 to 353366
Data columns (total 9 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   entry_date   353367 non-null  datetime64[ns]
 1   order_id     353367 non-null  int64         
 2   customer_id  353367 non-null  int64         
 3   quantity     353367 non-null  int64         
 4   price        353367 non-null  int64         
 5   name_clust   353367 non-null  int64         
 6   entry_id     353367 non-null  int64         
 7   country_id   353367 non-null  int64         
 8   entry        353367 non-null  object        
dtypes: datetime64[ns](1), int64(7), object(1)
memory usage: 27.0+ MB
None


- в объединённой таблице пропусков нет
- форматы правильны
- перед предобработкой проверим дубликаты

In [92]:
# Рассчитаем количество дубликатов
duplicates_comb_data = comb_data.duplicated().sum()
print(f"Количество дубликатов в объединённом датафрейме: {duplicates_comb_data}")

Количество дубликатов в объединённом датафрейме: 0


In [93]:
comb_data.describe()

Unnamed: 0,order_id,customer_id,quantity,price,name_clust,entry_id,country_id
count,353367.0,353367.0,353367.0,353367.0,353367.0,353367.0,353367.0
mean,26663.279831,3479.992538,10.218348,401.6779,468.644602,1517.811349,26.741045
std,13368.784949,2549.306356,147.510432,5084.618,259.160574,833.700318,4.998306
min,3031.0,-1.0,-9600.0,-1106206.0,0.0,0.0,0.0
25%,14832.0,-1.0,1.0,125.0,242.0,875.0,28.0
50%,27316.0,3630.0,3.0,208.0,448.0,1558.0,28.0
75%,38445.0,5633.0,10.0,413.0,702.0,2223.0,28.0
max,48253.0,7653.0,80995.0,1354133.0,929.0,2916.0,29.0


___Выводы по шагу 1___
- Основной датафрейм содержит данные без пропусков, однако  столбец entry_date преобразован в тип datetime.
- В текстовом датафрейме есть один пропуск в столбце entry.Был заполнен значением 'Unknown'.
- Дубликаты присуствуют только в основном датафрейме. Они были удалены
- Все идентификаторы в основном датафрейме имеют соответствия в текстовом.
- Создан объединенный датафрейм comb_data, который содержит всю информацию из обоих исходных датафреймов:

<div class="alert alert-info">
  <b> * <a href="#chapter0">к содержанию</a> </b> 
</div>

---