## Условие

Для выполнения работы будет использован csv файл “shopping_habits”, содержащий данные о различных покупках, которые совершаются покупателями в разных штатах США. Каждое из наблюдений в файле имеет следующие характеристики:

* Customer ID – порядковый номер строки в таблице
* Age – возраст покупателя
* Gender – пол покупателя
* Item Purchased – приобретенный товар
* Category - категория
* Purchase Amount (USD) – сумма покупки (в долларах)
* Location – локация покупки
* Size – размер (одежды)
* Color – цвет
* Season – время года совершения покупки
* Review Rating – полученный в отзыве рейтинг
* Subscription Status – статус подписки покупателя
* Shipping Type – тип доставки
* Discount Applied – применена ли скидка
* Promo Code Used – применен ли промокод
* Previous Purchases – были ли у данного покупателя предыдущие покупки
* Payment Method – способ оплаты
* Frequency of Purchases – частота покупок.

### Задание

Проведи разведочный анализ данных, выяви обычные взаимосвязи между значениями столбцов таблицы, выполни визуализацию, сделай выводы.

## Решение

### Подготовка данных

In [None]:
# Импорт необходимых библиотек
import numpy as np
import pandas as pd
import random
import plotly.express as px

In [None]:
def paint_heat_map(corr):
    fig = px.imshow(
        corr,
        text_auto=True,
        color_continuous_scale='RdBu_r',
        title='Тепловая карта корреляций между числовыми переменными'
    )
    fig.update_layout(
        width=900,
        height=600,
        title_x=0.5
    )
    fig.show()

In [None]:
def make_plot(df, x_col, y_col, type_color, type_name, title=None):
    # Список доступных цветовых схем plotly express
    colorscales = [
    'aggrnyl', 'agsunset', 'algae', 'amp', 'armyrose', 'balance',
    'blackbody', 'bluered', 'blues', 'blugrn', 'bluyl', 'brbg',
    'brwnyl', 'bugn', 'bupu', 'burg', 'burgyl', 'cividis', 'curl',
    'darkmint', 'deep', 'delta', 'dense', 'earth', 'edge', 'electric',
    'emrld', 'fall', 'geyser', 'gnbu', 'gray', 'greens', 'greys',
    'haline', 'hot', 'hsv', 'ice', 'icefire', 'inferno', 'jet',
    'magenta', 'magma', 'matter', 'mint', 'mrybm', 'mygbm', 'oranges',
    'orrd', 'oryel', 'oxy', 'peach', 'phase', 'picnic', 'pinkyl',
    'piyg', 'plasma', 'plotly3', 'portland', 'prgn', 'pubu', 'pubugn',
    'puor', 'purd', 'purp', 'purples', 'purpor', 'rainbow', 'rdbu',
    'rdgy', 'rdpu', 'rdylbu', 'rdylgn', 'redor', 'reds', 'solar',
    'spectral', 'speed', 'sunset', 'sunsetdark', 'teal', 'tealgrn',
    'tealrose', 'tempo', 'temps', 'thermal', 'tropic', 'turbid',
    'turbo', 'twilight', 'viridis', 'ylgn', 'ylgnbu', 'ylorbr',
    'ylorrd'
    ]
    random_colorscale = random.choice(colorscales)
    if title is None:
        title = f'{x_col} и {y_col}'

    fig = px.scatter(
        df,
        x=x_col,
        y=y_col,
        color=type_color,
        hover_name=type_name,
        color_continuous_scale=random_colorscale,
        title=title
    )
    # Линии 5% и 95% по X и Y
    x5, x95 = np.nanpercentile(df[x_col], 5), np.nanpercentile(df[x_col], 95)
    y5, y95 = np.nanpercentile(df[y_col], 5), np.nanpercentile(df[y_col], 95)
    fig.add_vline(x=x5, line_dash='dash', line_color='red', annotation_text='5%', annotation_position='top left')
    fig.add_vline(x=x95, line_dash='dash', line_color='blue', annotation_text='95%', annotation_position='top right')
    fig.add_hline(y=y5, line_dash='dash', line_color='red', annotation_text='5%', annotation_position='top right')
    fig.add_hline(y=y95, line_dash='dash', line_color='blue', annotation_text='95%', annotation_position='bottom right')
    #fig.update_layout(template='plotly_white')
    fig.update_layout(
    width=900,
    height=600,
    title_x=0.5
)
    fig.show()

In [None]:
# Скачиваем датасет
!wget --no-check-certificate "https://docs.google.com/uc?export=download&id=1Y7L6PQcr8_jblDWNqunh3XLG7YgUViT-" -O "shopping_habits.csv"

--2025-07-08 20:21:48--  https://docs.google.com/uc?export=download&id=1Y7L6PQcr8_jblDWNqunh3XLG7YgUViT-
Resolving docs.google.com (docs.google.com)... 64.233.181.102, 64.233.181.100, 64.233.181.139, ...
Connecting to docs.google.com (docs.google.com)|64.233.181.102|:443... connected.
HTTP request sent, awaiting response... 303 See Other
Location: https://drive.usercontent.google.com/download?id=1Y7L6PQcr8_jblDWNqunh3XLG7YgUViT-&export=download [following]
--2025-07-08 20:21:48--  https://drive.usercontent.google.com/download?id=1Y7L6PQcr8_jblDWNqunh3XLG7YgUViT-&export=download
Resolving drive.usercontent.google.com (drive.usercontent.google.com)... 142.250.152.132, 2607:f8b0:4001:c56::84
Connecting to drive.usercontent.google.com (drive.usercontent.google.com)|142.250.152.132|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 416614 (407K) [application/octet-stream]
Saving to: ‘shopping_habits.csv’


2025-07-08 20:21:50 (129 MB/s) - ‘shopping_habits.csv’ saved [

In [None]:
with open('shopping_habits.csv', 'r', encoding='utf-8') as f:
    for i in range(10):
        line = f.readline()
        print(line.strip())

Customer ID,Age,Gender,Item Purchased,Category,Purchase Amount (USD),Location,Size,Color,Season,Review Rating,Subscription Status,Shipping Type,Discount Applied,Promo Code Used,Previous Purchases,Payment Method,Frequency of Purchases
1,55,Male,Blouse,Clothing,53,Kentucky,L,Gray,Winter,3.1,Yes,Express,Yes,Yes,14,Venmo,Fortnightly
2,19,Male,Sweater,Clothing,64,Maine,L,Maroon,Winter,3.1,Yes,Express,Yes,Yes,2,Cash,Fortnightly
3,50,Male,Jeans,Clothing,73,Massachusetts,S,Maroon,Spring,3.1,Yes,Free Shipping,Yes,Yes,23,Credit Card,Weekly
4,21,Male,Sandals,Footwear,90,Rhode Island,M,Maroon,Spring,3.5,Yes,Next Day Air,Yes,Yes,49,PayPal,Weekly
5,45,Male,Blouse,Clothing,49,Oregon,M,Turquoise,Spring,2.7,Yes,Free Shipping,Yes,Yes,31,PayPal,Annually
6,46,Male,Sneakers,Footwear,20,Wyoming,M,White,Summer,2.9,Yes,Standard,Yes,Yes,14,Venmo,Weekly
7,63,Male,Shirt,Clothing,85,Montana,M,Gray,Fall,3.2,Yes,Free Shipping,Yes,Yes,49,Cash,Quarterly
8,27,Male,Shorts,Clothing,34,Louisiana,L,Charcoal,Winter,3.2,Yes

In [None]:
# Загрузка данных
df = pd.read_csv('shopping_habits.csv')

## Разведка

In [None]:
# Первичный просмотр, изучение
print("\n Info \n")
print(df.info())
print("\n\nHead \n")
print(df.head(10))
print("\n Describe \n")
print(df.describe())
print("\nIsnull sum\n")
print(df.isnull().sum())
print("\nHead\n")
print(df.head(10))
print("\nTail\n")
print(df.tail(10))


 Info 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3900 entries, 0 to 3899
Data columns (total 18 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Customer ID             3900 non-null   int64  
 1   Age                     3900 non-null   int64  
 2   Gender                  3900 non-null   object 
 3   Item Purchased          3900 non-null   object 
 4   Category                3900 non-null   object 
 5   Purchase Amount (USD)   3900 non-null   int64  
 6   Location                3900 non-null   object 
 7   Size                    3900 non-null   object 
 8   Color                   3900 non-null   object 
 9   Season                  3900 non-null   object 
 10  Review Rating           3900 non-null   float64
 11  Subscription Status     3900 non-null   object 
 12  Shipping Type           3900 non-null   object 
 13  Discount Applied        3900 non-null   object 
 14  Promo Code Used         3900 no

In [None]:
# Уникальные значения в категориальных переменных
categorical_cols = ['Gender', 'Item Purchased', 'Category', 'Location', 'Size', 'Color', 'Season', 'Subscription Status',
                   'Shipping Type', 'Discount Applied', 'Promo Code Used', 'Payment Method',
                   'Frequency of Purchases']
for col in categorical_cols:
    if col in df.columns:
        print(f"\n{col}: {df[col].nunique()}")
        print(df[col].value_counts().head(15))


Gender: 2
Gender
Male      2652
Female    1248
Name: count, dtype: int64

Item Purchased: 25
Item Purchased
Blouse        171
Pants         171
Jewelry       171
Shirt         169
Dress         166
Sweater       164
Jacket        163
Coat          161
Sunglasses    161
Belt          161
Sandals       160
Socks         159
Skirt         158
Scarf         157
Shorts        157
Name: count, dtype: int64

Category: 4
Category
Clothing       1737
Accessories    1240
Footwear        599
Outerwear       324
Name: count, dtype: int64

Location: 50
Location
Montana          96
California       95
Idaho            93
Illinois         92
Alabama          89
Minnesota        88
New York         87
Nevada           87
Nebraska         87
Delaware         86
Maryland         86
Vermont          85
Louisiana        84
North Dakota     83
West Virginia    81
Name: count, dtype: int64

Size: 4
Size
M     1755
L     1053
S      663
XL     429
Name: count, dtype: int64

Color: 25
Color
Olive       177
Y

In [None]:
num_cols = df.select_dtypes(include='number')
corr = num_cols.corr()
paint_heat_map(corr)

Сильных корелляций не обнаружено

In [None]:
# Разбиваем на возрастные группы
bins   = [17, 30, 45, 60, 75]
labels = ['18-30', '31-45', '46-60', '61-75']

df['Age Group'] = pd.cut(df['Age'],
                         bins=bins,
                         labels=labels)

In [None]:
# Сумма покупки и возраст
make_plot(
    df            = df,
    x_col         = 'Age',
    y_col         = 'Purchase Amount (USD)',
    type_color    = 'Age Group',
    type_name     = 'Customer ID',
    title         = 'Возраст и сумма покупки: разбивка по возрастной группе'
)

In [None]:
# Сумма покупки и возраст с отражением пола
make_plot(
    df            = df,
    x_col         = 'Age',
    y_col         = 'Purchase Amount (USD)',
    type_color    = 'Gender',
    type_name     = 'Customer ID',
    title         = 'Возраст и сумма покупки: разбивка по полу'
)

In [None]:
#Сумма покупки и количество предыдущих покупок
make_plot(
    df            = df,
    x_col         = 'Previous Purchases',
    y_col         = 'Purchase Amount (USD)',
    type_color    = 'Category',
    type_name     = 'Item Purchased',
    title         = 'Лояльность и чек: разбивка по категориям'
)

In [None]:
# Сумма и возрастная группа
fig = px.box(
    df,
    x      = 'Age Group',
    y      = 'Purchase Amount (USD)',
    color  = 'Gender',
    title  = 'Чек по возрастным группам и полу',
    category_orders={'Age Group': labels}
)
fig.update_layout(width=900, height=600, title_x=0.5)
fig.show()

Первые выводы:
1. Мужчины покупают чаще женщин (или оплачивают покупки)
2. Размер М самый популярный

Проверим различные гипотезы

### Гипотеза №1. Молодежь покупает чаще

In [None]:
freq_map = {'Weekly':52, 'Fortnightly':26, 'Bi-Weekly':26,
            'Monthly':12, 'Every 3 Months':4, 'Quarterly':4,
            'Annually':1}
df['Freq_num'] = df['Frequency of Purchases'].map(freq_map)

freq_age = df.groupby('Age Group', observed=True)['Freq_num'].mean().reset_index()

fig = px.bar(freq_age, x='Age Group', y='Freq_num',
             title='Гипотеза 1: Молодежь покупает чаще')
fig.show()

❌ Гипотеза не подтвердилась

### Гипотеза №2. Северные штаты покупают чаще зимнюю одежду, а южные летнюю

In [None]:
north = {
    'Maine', 'Vermont', 'New Hampshire', 'Massachusetts', 'New York',
    'Minnesota', 'North Dakota', 'South Dakota', 'Montana', 'Alaska',
    'Connecticut', 'Rhode Island', 'Wisconsin', 'Michigan', 'Illinois',
    'Indiana', 'Iowa', 'Nebraska', 'Ohio', 'Pennsylvania', 'New Jersey'
}
df['Region'] = np.where(df['Location'].isin(north), 'North', 'South')

pivot = (df
              .pivot_table(index='Region', columns='Season',
                           values='Customer ID', aggfunc='count')
              .fillna(0).reset_index())

fig = px.bar(
    pivot,
    x='Region',
    y=['Winter', 'Summer', 'Spring', 'Fall'],
    barmode='group',
    title='Покупки по регионам и сезонам'
)
fig.show()

❌ Гипотеза не подтвердилась

### Гипотеза №3. Зимой чаще покупают "серые" вещи, а летом "цветные"

In [None]:
neutral = {'Black','White','Gray','Silver','Charcoal','Beige'}
df['ColorTone'] = np.where(df['Color'].isin(neutral), 'Neutral', 'Bright')
tone = (df.query("Season in ['Winter','Summer']")
          .groupby(['Season','ColorTone'])['Customer ID']
          .count().reset_index())

fig = px.bar(tone, x='Season', y='Customer ID', color='ColorTone',
             title='Гипотеза 3: распределение тонов цвета (Winter/Summer)',
             text_auto=True)
fig.show()

❌ Гипотеза не подтвердилась

### Гипотеза №4. Чаще делают заказы со скидкой или промокодом, чем без них

In [None]:
df['Discount_or_Promo'] = ((df['Discount Applied'] == 'Yes') | (df['Promo Code Used'] == 'Yes'))
share_with = df['Discount_or_Promo'].mean() * 100
share_without = 100 - share_with

disc_promo = pd.DataFrame({
    'Type': ['Со скидкой или промокодом', 'Без скидки и промокода'],
    'Share': [share_with, share_without]
})

import plotly.express as px

fig = px.bar(
    disc_promo,
    x='Share',
    y='Type',
    orientation='h',
    title='Доля заказов со скидкой или промокодом',
    text_auto='.1f'
)
fig.show()

❌ Гипотеза не подтвердилась

### Гипотеза №5: с подпиской покупки совершают чаще

In [None]:
fig = px.box(df, x='Subscription Status', y='Freq_num', points=False,
             title='Гипотеза 6: частота покупок vs подписка')
fig.show()

❌ Гипотеза не подтвердилась

### Гипотеза №6. Молодые чаще оформляют подписку

In [None]:
sub_age = (df.groupby(['Age Group','Subscription Status'], observed=True)['Customer ID']
             .count().reset_index())
# превращаем в проценты
totals = sub_age.groupby('Age Group',observed=True)['Customer ID'].transform('sum')
sub_age['Share'] = sub_age['Customer ID']/totals*100

fig = px.bar(sub_age[sub_age['Subscription Status']=='Yes'],
             x='Age Group', y='Share',
             title='Гипотеза 7: доля подписчиков по возрасту', text_auto='.1f')
fig.show()

❌ Гипотеза не подтвердилась

### Гипотеза №8. Одежда приносит больше всего прибыли

In [None]:
category_profit = df.groupby('Category')['Purchase Amount (USD)'].sum().sort_values(ascending=False).reset_index()

fig = px.bar(category_profit,
             x='Category', y='Purchase Amount (USD)',
             title='Гипотеза 8: Одежда приносит больше всего прибыли', text_auto='.1f')
fig.update_layout(
    xaxis_title='Категория товара',
    yaxis_title='Суммарная прибыль (USD)',
    xaxis_tickangle=0,
)
fig.show()

✅ Гипотеза подтвердилась

## Выводы

1. Большинство гипотез о покупательском поведении не подтвердились.
2. Наибольшую прибыль приносит категория “Одежда”.
3. Мужчины покупают чаще женщин, размер “М” — самый популярный.
4. Визуализация данных помогает наглядно увидеть распределения и связи, но
явных сильных зависимостей между признаками не выявлено.