In [1]:
#Импорт зависимостей 
import pandas as pd
import numpy as np  
from scipy import stats
import plotly.graph_objects as go
import os
import webbrowser

In [2]:
# чтение csv файла
df = pd.read_csv('ecom_data_prod_1224_0325_upd.csv')

In [3]:
# преобразование строки даты в объект даты
df['researchdate'] = pd.to_datetime(df['researchdate'])

In [4]:
df.head()

Unnamed: 0,SubjectID,QueryText,BrandID,Category1ID,Category2ID,Category3ID,Brand,Category1,Category2,Category3,...,Work,Income,Weight,week_weight,month_weight,Start,researchdate,week,Month,inDelivery
0,3683953663378096962,крем корега,230130,3,303,3032,корега,Лекарства,Личная гигиена,Уход за полостью рта,...,не работает; 12-17; 65+ лет,затрудняюсь ответить,9010.477,9608.837,8405.85,2025-02-04T03:36:38.000+03:00,2025-02-04,2025-02-03,2025-02-01,1
1,432351254888982538,мираторг корм для кошек,232457,19,1901,190199,мираторг,Зоотовары,Корм для кошек,Другое,...,работает,"хватает на еду и одежду, но не на дорогие вещи",5083.769,5089.517,5051.67,2025-02-20T22:09:32.000+03:00,2025-02-20,2025-02-17,2025-02-01,1
2,432351254888982538,корм для кошек мираторг,232457,19,1901,190199,мираторг,Зоотовары,Корм для кошек,Другое,...,работает,"хватает на еду и одежду, но не на дорогие вещи",5254.38,5273.429,5051.67,2025-02-28T20:17:39.000+03:00,2025-02-28,2025-02-24,2025-02-01,1
3,2738205780782286593,deonica,202979,15,1503,15031,deonica,Красота,Парфюмерия и ароматерапия,Дезодоранты,...,работает,"хватает на еду и одежду, но не на дорогие вещи",777.135,811.353,794.963,2025-02-18T18:34:50.000+03:00,2025-02-18,2025-02-17,2025-02-01,1
4,6701361217345430535,глис кур,206222,15,1501,15011,глисс кур,Красота,Уходовая косметика,Средства для волос,...,не работает; 12-17; 65+ лет,хватает на все или почти все,6370.446,5362.518,3920.441,2025-02-12T12:40:13.000+03:00,2025-02-12,2025-02-10,2025-02-01,1


In [5]:
groups = df.groupby(['SubjectID','researchdate', 'Brand'])

In [6]:
# формирование статистики по активности респондента за день по бренду: сколько респондент сделал запросов к бренду за день и итоговый вес респондента
daily_brand_user_stats = df.groupby(['researchdate', 'Brand', 'SubjectID']).agg(
    query_count=('QueryText', 'count'), 
    weight=('Weight', 'first')           
).reset_index()

In [7]:
daily_brand_user_stats

Unnamed: 0,researchdate,Brand,SubjectID,query_count,weight
0,2024-12-01,911 ваша служба спасения,4611694214010660315,1,9373.386
1,2024-12-01,abc (бытовая химия),3386714602605567539,1,1720.954
2,2024-12-01,abc (бытовая химия),6629304165209877379,1,2029.822
3,2024-12-01,abdl,1729390231323622656,1,11903.438
4,2024-12-01,abricot,1585271561336621756,1,1195.283
...,...,...,...,...,...
156610,2025-03-31,яндекс,5773626760334392643,1,2292.826
156611,2025-03-31,яндекс,6052843423965704539,3,3168.700
156612,2025-03-31,яндекс,6629304165209878316,1,2381.889
156613,2025-03-31,яндекс,7575066561518644354,1,2541.140


In [8]:
daily_brand_user_stats['OTS'] = daily_brand_user_stats['weight'] * daily_brand_user_stats['query_count']

In [9]:
daily_brand_user_stats

Unnamed: 0,researchdate,Brand,SubjectID,query_count,weight,OTS
0,2024-12-01,911 ваша служба спасения,4611694214010660315,1,9373.386,9373.386
1,2024-12-01,abc (бытовая химия),3386714602605567539,1,1720.954,1720.954
2,2024-12-01,abc (бытовая химия),6629304165209877379,1,2029.822,2029.822
3,2024-12-01,abdl,1729390231323622656,1,11903.438,11903.438
4,2024-12-01,abricot,1585271561336621756,1,1195.283,1195.283
...,...,...,...,...,...,...
156610,2025-03-31,яндекс,5773626760334392643,1,2292.826,2292.826
156611,2025-03-31,яндекс,6052843423965704539,3,3168.700,9506.100
156612,2025-03-31,яндекс,6629304165209878316,1,2381.889,2381.889
156613,2025-03-31,яндекс,7575066561518644354,1,2541.140,2541.140


In [10]:
# оставляем только те бренды, что имеют более 6 респондентов и месячный вес более 20000 
significant_brands = daily_brand_user_stats.groupby(['Brand', pd.Grouper(key='researchdate', freq='M')]) \
                     .agg(total_ots=('OTS', 'sum'),
                          unique_users=('SubjectID', 'nunique')) \
                     .query('total_ots >= 20000 and unique_users >= 6') \
                     .reset_index()['Brand'].unique()

  significant_brands = daily_brand_user_stats.groupby(['Brand', pd.Grouper(key='researchdate', freq='M')]) \


In [11]:
#Поиск "аномальных" респондентов 

#массив для "аномальных" респондентов 
anomalies = []

# цикл для значимых по условию брендов 
for significant_brand  in significant_brands:
    # значимый бренд
    brand_data = daily_brand_user_stats[daily_brand_user_stats['Brand'] == significant_brand]

    #формируем дневную активность респондентов по бренду 
    for date, day_activity in brand_data.groupby('researchdate'):
        # логарифмируем шкалу для приближения формы распределения к нормальному 
        log_ots = np.log1p(day_activity['OTS'])
        # совершаем z-оценку дневной активности респондентов 
        z_scores = np.abs(stats.zscore(log_ots))
        # оставляем только аномальную активность, выходящую за критический порог 
        date_anomalies = day_activity[z_scores > 2.5]
        # добавляем респондентов с "аномальной" активностью в массив
        anomalies.extend(date_anomalies[['SubjectID', 'researchdate', 'Brand', 'OTS']].values.tolist())

In [12]:
# формируем dataframe для выгрузки в csv 
anomalies_df = pd.DataFrame(anomalies, columns=['SubjectID', 'researchdate', 'Brand', 'OTS'])

In [13]:
# итоговый OTS по дням до очистки
total_daily_ots_before = daily_brand_user_stats.groupby('researchdate').agg(total_ots=('OTS', 'sum')).reset_index()
total_daily_ots_before

Unnamed: 0,researchdate,total_ots
0,2024-12-01,1.007924e+07
1,2024-12-02,9.985770e+06
2,2024-12-03,1.038658e+07
3,2024-12-04,7.940824e+06
4,2024-12-05,8.960040e+06
...,...,...
116,2025-03-27,9.370695e+06
117,2025-03-28,8.211299e+06
118,2025-03-29,8.710024e+06
119,2025-03-30,9.279740e+06


In [14]:
# удаление активности "аномальных" респондентов, за весь тот день, в который они признаны "аномальными" 
anomalous_days_users = anomalies_df[['researchdate', 'SubjectID']].drop_duplicates()

# маска для "аномальных респондентов"
mask = df.merge(anomalous_days_users, 
                on=['researchdate', 'SubjectID'], 
                how='left', 
                indicator=True)['_merge'] == 'left_only'

cleaned_df = df[mask].copy()
# выгрузка в csv 
cleaned_df.to_csv('cleaned_data.csv', index=False)

In [15]:
# формирование статистики по активности респондента за день по бренду в данных без аномалий 
daily_brand_user_stats_clean = cleaned_df.groupby(['researchdate', 'Brand', 'SubjectID']).agg(
    query_count=('QueryText', 'count'), 
    weight=('Weight', 'first')           
).reset_index()

In [16]:
daily_brand_user_stats_clean['OTS'] = daily_brand_user_stats_clean['weight'] * daily_brand_user_stats_clean['query_count']
daily_brand_user_stats_clean

Unnamed: 0,researchdate,Brand,SubjectID,query_count,weight,OTS
0,2024-12-01,911 ваша служба спасения,4611694214010660315,1,9373.386,9373.386
1,2024-12-01,abc (бытовая химия),3386714602605567539,1,1720.954,1720.954
2,2024-12-01,abc (бытовая химия),6629304165209877379,1,2029.822,2029.822
3,2024-12-01,abdl,1729390231323622656,1,11903.438,11903.438
4,2024-12-01,abricot,1585271561336621756,1,1195.283,1195.283
...,...,...,...,...,...,...
155480,2025-03-31,яндекс,5773626760334392643,1,2292.826,2292.826
155481,2025-03-31,яндекс,6052843423965704539,3,3168.700,9506.100
155482,2025-03-31,яндекс,6629304165209878316,1,2381.889,2381.889
155483,2025-03-31,яндекс,7575066561518644354,1,2541.140,2541.140


In [17]:
# итоговый OTS по дням после очистки 
total_daily_ots_after = daily_brand_user_stats_clean.groupby('researchdate').agg(total_ots=('OTS', 'sum')).reset_index()
total_daily_ots_after

Unnamed: 0,researchdate,total_ots
0,2024-12-01,9527265.346
1,2024-12-02,9858644.841
2,2024-12-03,9522073.981
3,2024-12-04,7843702.079
4,2024-12-05,8808670.406
...,...,...
116,2025-03-27,8375709.454
117,2025-03-28,7917048.561
118,2025-03-29,8095187.193
119,2025-03-30,8906216.027


In [18]:
fig = go.Figure()

fig.add_trace(go.Scatter(
    x=total_daily_ots_before['researchdate'],
    y=total_daily_ots_before['total_ots'],
    mode='lines+markers',
    name='До очистки',
    line=dict(color='blue', width=2),
    marker=dict(size=6)
))

fig.add_trace(go.Scatter(
    x=total_daily_ots_after['researchdate'],
    y=total_daily_ots_after['total_ots'],
    mode='lines+markers',
    name='После очистки',
    line=dict(color='red', width=2),
    marker=dict(size=6)
))

fig.update_layout(
    title='Динамика OTS до и после удаления аномалий',
    xaxis_title='Дата',
    yaxis_title='Общий OTS',
    hovermode='x unified',
    template='plotly_white',
    legend=dict(orientation="h", yanchor="bottom", y=1.02, xanchor="right", x=1),
    xaxis=dict(
        tickformat='%d.%m.%Y',
        tickmode='auto',
        nticks=20,
        gridcolor='lightgray'
    ),
    yaxis=dict(
        gridcolor='lightgray'
    )
)

output_filename = 'ots_comparison_line_chart.html'
output_path = os.path.join(os.getcwd(), output_filename)

fig.write_html(output_path, auto_open=False)

webbrowser.open('file://' + os.path.realpath(output_path))

print(f'График сохранен по пути: {os.path.realpath(output_path)}')

График сохранен по пути: C:\Users\Admin\Desktop\python Проекты\pandas\Проекты Python\Python 4 полусеместровый контроль\Последний полусем\ots_comparison_line_chart.html


In [19]:
category_ots_before = df.groupby('CategoryDelivery').agg(total_ots=('Weight', 'sum')).reset_index()
category_ots_before

Unnamed: 0,CategoryDelivery,total_ots
0,Аудиотехника,97586820.0
1,Дезодоранты,7101670.0
2,Детские одежда и обувь,19746930.0
3,Детское питание,13634680.0
4,Женская гигиена,3712560.0
5,Корм для кошек,24078200.0
6,Корм для собак,7895212.0
7,Краски для волос,9948562.0
8,Крупная техника,74945630.0
9,Макияж для глаз,8473182.0


In [20]:
category_ots_after = cleaned_df.groupby('CategoryDelivery').agg(total_ots=('Weight', 'sum')).reset_index()
category_ots_after

Unnamed: 0,CategoryDelivery,total_ots
0,Аудиотехника,91872570.0
1,Дезодоранты,6992328.0
2,Детские одежда и обувь,19617700.0
3,Детское питание,13627350.0
4,Женская гигиена,3690240.0
5,Корм для кошек,23989590.0
6,Корм для собак,7894133.0
7,Краски для волос,9897885.0
8,Крупная техника,73048610.0
9,Макияж для глаз,8275078.0


In [21]:
category_ots_diff = category_ots_before['total_ots'] - category_ots_after['total_ots']
category_ots_diff

0     5.714254e+06
1     1.093423e+05
2     1.292275e+05
3     7.328482e+03
4     2.231983e+04
5     8.861058e+04
6     1.079021e+03
7     5.067782e+04
8     1.897011e+06
9     1.981039e+05
10    3.347975e+04
11    2.805069e+04
12    1.896968e+06
13    1.847913e+06
14    8.391426e+05
15    1.115992e+04
16    1.528773e+05
17    2.858213e+06
18    4.485928e+07
19    2.020157e+05
20    2.533605e+05
21    0.000000e+00
22    2.702715e+04
23    6.055939e+05
24    0.000000e+00
25    0.000000e+00
26    1.870046e+04
27    5.218020e+04
28    0.000000e+00
29    2.231983e+04
30    1.188929e+04
Name: total_ots, dtype: float64

In [22]:
category_ots_diff = pd.concat([category_ots_after['CategoryDelivery'], category_ots_diff],  axis=1)

In [23]:
category_ots_diff

Unnamed: 0,CategoryDelivery,total_ots
0,Аудиотехника,5714254.0
1,Дезодоранты,109342.3
2,Детские одежда и обувь,129227.5
3,Детское питание,7328.482
4,Женская гигиена,22319.83
5,Корм для кошек,88610.58
6,Корм для собак,1079.021
7,Краски для волос,50677.82
8,Крупная техника,1897011.0
9,Макияж для глаз,198103.9


In [24]:
category_ots_diff['Pct_Change'] = (category_ots_after['total_ots'] - category_ots_before['total_ots']) / category_ots_before['total_ots'] * 100

fig = go.Figure()

fig.add_trace(go.Bar(
    x=category_ots_diff['CategoryDelivery'],
    y=category_ots_diff['Pct_Change'],
    marker_color='#1f77b4',  # Простой синий цвет
    textposition='outside',
    texttemplate='%{y:.1f}%',
    hovertemplate='<b>%{x}</b><br>Изменение: %{y:.1f}%<extra></extra>'
))

fig.update_layout(
    title='Изменение OTS по категориям (%)',
    xaxis_title='Категория',
    yaxis_title='Изменение, %',
    yaxis=dict(ticksuffix='%'),
    plot_bgcolor='white',
    hovermode='x',
    xaxis=dict(tickangle=45),
    margin=dict(b=100)
)

output_path = os.path.join(os.getcwd(), 'category_pct_change.html')
fig.write_html(output_path)
webbrowser.open(output_path)

True

In [25]:
anomalies_daily_amount = anomalies_df.groupby('researchdate').agg(anomalies_amount=('SubjectID', 'count')).reset_index()
fig = go.Figure()

fig.add_trace(go.Bar(
    x=anomalies_daily_amount['researchdate'],
    y=anomalies_daily_amount['anomalies_amount'],
    marker_color='indianred',  # Красный цвет для наглядности
    hovertemplate='<b>%{x|%d.%m.%Y}</b><br>Аномалий: %{y}<extra></extra>',
    name='Аномальные респонденты'
))

fig.update_layout(
    title='Количество аномальных респондентов по дням',
    xaxis_title='Дата',
    yaxis_title='Количество аномалий',
    plot_bgcolor='white',
    xaxis=dict(
        tickformat='%d.%m',  
        gridcolor='lightgrey'
    ),
    yaxis=dict(
        gridcolor='lightgrey',
        rangemode='tozero'  
    ),
    bargap=0.2,  
    height=500,
    margin=dict(l=50, r=50, b=100, t=80)
)

output_path = os.path.join(os.getcwd(), 'daily_anomalies_histogram.html')
fig.write_html(output_path, auto_open=False)
webbrowser.open('file://' + os.path.realpath(output_path))

print(f'Гистограмма сохранена: {os.path.realpath(output_path)}')

Гистограмма сохранена: C:\Users\Admin\Desktop\python Проекты\pandas\Проекты Python\Python 4 полусеместровый контроль\Последний полусем\daily_anomalies_histogram.html
