In [15]:
import pandas as pd
import matplotlib.pyplot as plt

In [16]:
data = pd.read_excel("views_statistics.xlsx")
data['time'] = pd.to_datetime(data['time'], format='%Y-%m-%d %H:%M:%S.%f')
data

Unnamed: 0,time,user_id,ip,video_id,platform
0,2025-02-20 00:00:00.000,1964,115.140.58.148,18318,android
1,2025-02-20 00:00:00.750,1573,160.179.46.24,13693,android
2,2025-02-20 00:00:02.750,2223,228.214.166.91,84713,android
3,2025-02-20 00:00:05.750,1126,184.57.115.70,35616,iphone
4,2025-02-20 00:00:07.750,26,172.10.12.34,34873,android
...,...,...,...,...,...
80337,2025-02-20 23:59:48.000,1248,142.44.157.53,51942,iphone
80338,2025-02-20 23:59:49.500,1627,135.198.71.195,87627,android
80339,2025-02-20 23:59:53.750,1001,127.1.203.10,12916,iphone
80340,2025-02-20 23:59:58.000,494,244.206.196.177,55617,iphone


Проверим, есть ли пустые ячейки

In [19]:
data.isnull().sum()

Unnamed: 0,0
time,0
user_id,0
ip,0
video_id,0
platform,0


Пустых ячеек нет.
Группируем данные по ip адресам и найдем пользователей, которые смотрели более 15 видео за час

In [9]:
ip_group = data.groupby('ip').resample('1H', on='time').size().reset_index(name='counts')
ip_group

  ip_group = data.groupby('ip').resample('1H', on='time').size().reset_index(name='counts')


Unnamed: 0,ip,time,counts
0,0.0.148.213,2025-02-20 23:00:00,1
1,0.1.161.131,2025-02-20 23:00:00,1
2,0.1.186.185,2025-02-20 21:00:00,1
3,0.10.12.88,2025-02-20 19:00:00,1
4,0.10.171.6,2025-02-20 22:00:00,1
...,...,...,...
77047,99.95.211.31,2025-02-20 20:00:00,1
77048,99.97.154.254,2025-02-20 10:00:00,1
77049,99.97.19.240,2025-02-20 15:00:00,1
77050,99.97.222.65,2025-02-20 07:00:00,1


In [10]:
ip_group[ip_group['counts'] > 15]

Unnamed: 0,ip,time,counts
38761,213.167.68.178,2025-02-20 20:00:00,314
38762,213.167.68.178,2025-02-20 21:00:00,149
58999,44.68.82.175,2025-02-20 10:00:00,2830


Видим, что количество просмотренных видео с данных адресов всего за один час слишком огромное. Делаем вывод, что это аномалия.
Положим их в массив и запомним

In [20]:
anomal_ip = ip_group[ip_group['counts'] > 15]['ip'].unique()

anomal_ip

array(['213.167.68.178', '44.68.82.175'], dtype=object)

Проверим, есть ли случаи, когда одно видео смотрели с одного адреса разные пользователи в течении короткого времени

In [12]:
data['time_diff'] = data.groupby(['ip', 'video_id'])['time'].diff()
anomalous_repeats = data[data['time_diff'] < pd.Timedelta(minutes=5)]

anomalous_repeats

Unnamed: 0,time,user_id,ip,video_id,platform,time_diff
22708,2025-02-20 10:42:23.750,3452,44.68.82.175,60563,android,0 days 00:00:00
22711,2025-02-20 10:42:24.750,3452,44.68.82.175,60563,iphone,0 days 00:00:01
22712,2025-02-20 10:42:25.000,3452,44.68.82.175,60563,android,0 days 00:00:00.250000
22713,2025-02-20 10:42:25.250,3452,44.68.82.175,60563,android,0 days 00:00:00.250000
22714,2025-02-20 10:42:25.500,3452,44.68.82.175,60563,android,0 days 00:00:00.250000
...,...,...,...,...,...,...
69788,2025-02-20 21:14:22.750,20,213.167.68.178,12468,android,0 days 00:00:00.750000
69794,2025-02-20 21:14:29.250,6,213.167.68.178,12468,iphone,0 days 00:00:06.500000
69801,2025-02-20 21:14:34.250,3,213.167.68.178,12468,iphone,0 days 00:00:05
69802,2025-02-20 21:14:36.250,20,213.167.68.178,12468,iphone,0 days 00:00:02


Видим, что таких случаем очень много и запомним эти адреса:

In [13]:
repeats_id = anomalous_repeats['ip'].unique()
repeats_id

array(['44.68.82.175', '213.167.68.178'], dtype=object)

Видим, что это те же ip адреса, что и в прошлой проверке. Очистим данные от них

In [14]:
cleaned_data = data[~data['ip'].isin(anomal_ip)]
cleaned_data

Unnamed: 0,time,user_id,ip,video_id,platform,time_diff
0,2025-02-20 00:00:00.000,1964,115.140.58.148,18318,android,NaT
1,2025-02-20 00:00:00.750,1573,160.179.46.24,13693,android,NaT
2,2025-02-20 00:00:02.750,2223,228.214.166.91,84713,android,NaT
3,2025-02-20 00:00:05.750,1126,184.57.115.70,35616,iphone,NaT
4,2025-02-20 00:00:07.750,26,172.10.12.34,34873,android,NaT
...,...,...,...,...,...,...
80337,2025-02-20 23:59:48.000,1248,142.44.157.53,51942,iphone,NaT
80338,2025-02-20 23:59:49.500,1627,135.198.71.195,87627,android,NaT
80339,2025-02-20 23:59:53.750,1001,127.1.203.10,12916,iphone,NaT
80340,2025-02-20 23:59:58.000,494,244.206.196.177,55617,iphone,NaT


Очистили данные более чем на 3000 строк

Сохраним csv файл с очищенными данными

In [None]:
cleaned_data.to_csv('cleaned_data.csv', index  = False)