In [136]:
import pandas as pd

In [137]:
# Чтение CSV-файла с пропуском строк с индексами 2 и 3, а также последних 2 строк
df = pd.read_csv(
    '../data/feed-views.log',  # Замените на имя вашего файла
    sep = '\t',
    skiprows=[2, 3],  # Пропуск строк с индексами 2 и 3
    skipfooter=2,     # Пропуск последних 2 строк
    engine='python',  # Используем 'python' для поддержки skipfooter
    header=None,      # Указываем, что в файле нет заголовков
    names=['datetime', 'user']  # Присваиваем столбцам имена
)

In [138]:
# Преобразование столбца 'datetime' в тип datetime64[ns]
df['datetime'] = pd.to_datetime(df['datetime'])

In [139]:
df['year'] = df['datetime'].dt.year
df['month'] = df['datetime'].dt.month
df['day'] = df['datetime'].dt.day
df['hour'] = df['datetime'].dt.hour
df['minute'] = df['datetime'].dt.minute
df['second'] = df['datetime'].dt.second

In [140]:
df

Unnamed: 0,datetime,user,year,month,day,hour,minute,second
0,2020-04-17 12:01:08.463179,artem,2020,4,17,12,1,8
1,2020-04-17 12:01:23.743946,artem,2020,4,17,12,1,23
2,2020-04-17 12:35:52.735016,artem,2020,4,17,12,35,52
3,2020-04-17 12:36:21.401412,oksana,2020,4,17,12,36,21
4,2020-04-17 12:36:22.023355,oksana,2020,4,17,12,36,22
...,...,...,...,...,...,...,...,...
1067,2020-05-21 16:36:40.915488,ekaterina,2020,5,21,16,36,40
1068,2020-05-21 17:49:36.429237,maxim,2020,5,21,17,49,36
1069,2020-05-21 18:45:20.441142,valentina,2020,5,21,18,45,20
1070,2020-05-21 23:03:06.457819,maxim,2020,5,21,23,3,6


In [141]:
# Определение границ интервалов времени суток
bins = [0, 3.59, 6.59, 10.59, 16.59, 19.59, 24]
# Определение названий для интервалов времени суток
labels = ['ночь', 'раннее утро', 'утро', 'день', 'ранний вечер', 'вечер']

In [142]:
# Использование pd.cut для создания нового столбца 'time_of_day'
df['time_of_day'] = pd.cut(df['hour'] + df['minute']/100, bins=bins, labels=labels, right=False)
df.set_index('user', inplace=True)

In [143]:
df

Unnamed: 0_level_0,datetime,year,month,day,hour,minute,second,time_of_day
user,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
artem,2020-04-17 12:01:08.463179,2020,4,17,12,1,8,день
artem,2020-04-17 12:01:23.743946,2020,4,17,12,1,23,день
artem,2020-04-17 12:35:52.735016,2020,4,17,12,35,52,день
oksana,2020-04-17 12:36:21.401412,2020,4,17,12,36,21,день
oksana,2020-04-17 12:36:22.023355,2020,4,17,12,36,22,день
...,...,...,...,...,...,...,...,...
ekaterina,2020-05-21 16:36:40.915488,2020,5,21,16,36,40,день
maxim,2020-05-21 17:49:36.429237,2020,5,21,17,49,36,ранний вечер
valentina,2020-05-21 18:45:20.441142,2020,5,21,18,45,20,ранний вечер
maxim,2020-05-21 23:03:06.457819,2020,5,21,23,3,6,вечер


In [144]:
# Подсчет значений в каждой колонке
counts = df.count(axis=0)
print(counts)
print()
# Подсчет количества уникальных значений time_of_day
value_counts = df['time_of_day'].value_counts()
print(value_counts)

datetime       1072
year           1072
month          1072
day            1072
hour           1072
minute         1072
second         1072
time_of_day    1072
dtype: int64

time_of_day
вечер           508
день            250
ранний вечер    145
ночь            129
утро             35
раннее утро       5
Name: count, dtype: int64


In [145]:
# Сортировка фрема по колонкам hour, minute, second
df_sorted = df.sort_values(by=['hour', 'minute', 'second'])
print(df_sorted)

                            datetime  year  month  day  hour  minute  second  \
user                                                                           
valentina 2020-05-15 00:00:13.222265  2020      5   15     0       0      13   
valentina 2020-05-15 00:01:05.153738  2020      5   15     0       1       5   
pavel     2020-05-12 00:01:27.764025  2020      5   12     0       1      27   
pavel     2020-05-12 00:01:38.444917  2020      5   12     0       1      38   
pavel     2020-05-12 00:01:55.395042  2020      5   12     0       1      55   
...                              ...   ...    ...  ...   ...     ...     ...   
artem     2020-04-29 23:48:14.208828  2020      4   29    23      48      14   
anatoliy  2020-05-09 23:53:55.599821  2020      5    9    23      53      55   
pavel     2020-05-09 23:54:54.260791  2020      5    9    23      54      54   
valentina 2020-05-14 23:58:56.754866  2020      5   14    23      58      56   
alexander 2020-05-14 23:59:38.758438  20

In [146]:
# Подсчет максимального и минимального часа
max_hour = df['hour'].max()
min_hour = df['hour'].min()
print(f'max_hour = {max_hour}; min_hour = {min_hour}')
# Мода по значению time_of_day
mode_time = df['time_of_day'].mode()
print("Мода времени суток:")
for m in mode_time:
    print(f"- {m}")
# Расчет максимального часа ночью
max_night_hour = df[df['time_of_day'] == 'ночь']
max_night_hour = max_night_hour['hour'].max()
print(f'max_night_hour = {max_night_hour}')
# Расчет минимального часа утром
min_morning_hour = df[df['time_of_day'] == 'утро']
min_morning_hour = min_morning_hour['hour'].min()
print(f'min_morning_hour = {min_morning_hour}')

later_night = df[(df['hour'] == max_night_hour) & (df['time_of_day'] == 'ночь')]
later_morning = df[(df['hour'] == min_morning_hour) & (df['time_of_day'] == 'утро')]
print()

hour_users = pd.concat([later_morning, later_night])
randon_user = hour_users.sample(1).index[0]
print(f'randon_user = {randon_user}')
mode_hour = df['hour'].mode()
print("Мода часа:")
for m in mode_hour:
    print(f"- {m}")

max_hour = 23; min_hour = 0
Мода времени суток:
- вечер
max_night_hour = 3
min_morning_hour = 8

randon_user = konstantin
Мода часа:
- 22


In [147]:
# С помощью nsmallest() нашли 3 самых ранних часа утра
small_hour = df[df['time_of_day'] == 'утро']
small_hour = small_hour[['hour']]
small_hour = small_hour.nsmallest(n=3, columns='hour')
print(small_hour)

# С помощью nlargest() нашли 3 самых поздних часа ночи
largest_hour = df[df['time_of_day'] == 'ночь']
largest_hour = largest_hour[['hour']]
largest_hour = largest_hour.nlargest(n=3, columns='hour')
print(largest_hour)

           hour
user           
alexander     8
alexander     8
artem         9
            hour
user            
konstantin     3
konstantin     3
konstantin     3


In [148]:
statistics = df.describe()
Q1 = statistics['hour']['25%']
Q2 = statistics['hour']['75%']
iqr = Q2 - Q1
print(f'iqr = {iqr}')

iqr = 9.0
