## Импорт библиотеки

In [1]:
import pandas as pd

## Берем данные с файла - ```../ex00/data/feed-views.log```

- `sep = "\t"` -> Разделенире полей через табуляцию

- `names = ["datetime", "user"]` -> Параметор `names` отвечает за заголовки в таблице. Мы указали заголовки как `"datetime" и "user"`

In [2]:
data = pd.read_csv("../ex00/data/feed-views.log", sep = "\t", names = ['datetime', 'user'])

data

Unnamed: 0,datetime,user
0,2020-04-17 12:01:08.463179,artem
1,2020-04-17 12:01:23.743946,artem
2,2020-04-17 12:27:30.646665,artem
3,2020-04-17 12:35:44.884757,artem
4,2020-04-17 12:35:52.735016,artem
...,...,...
1071,2020-05-21 18:45:20.441142,valentina
1072,2020-05-21 23:03:06.457819,maxim
1073,2020-05-21 23:23:49.995349,pavel
1074,2020-05-21 23:49:22.386789,artem


## Преобразуем ```datetime``` в тип данных ``datetime64[ns]``

#### Создаем новые столбцы из `datetime`

- `data["datetime"] = pd.to_datetime(data["datetime"])` -> преобразует значения столбца `datetime` в тип данных `datetime64[ns]`

#### Из столбца `"datetime"` извлекаются отдельные компоненты и создаются новые столбцы

- `data["year"] = data["datetime"].dt.year` -> создает столбец `"year"` который будет содержать *годы* - 2023

- `data['month'] = data["datetime"].dt.month` -> создаёт столбец `"month"` который будет содержать *месяц* - от 1 до 12

- `data['day'] = data["datetime"].dt.day` -> создаёт столбец `"day"` который будет содержать *день* - от 1 до 31

- `data['hour'] = data["datetime"].dt.hour` -> создаёт столбец `"hour"` содержащкоторый будет содержатьий *час* - от 0 до 23

- `data['minute'] = data["datetime"].dt.minute` -> создаёт столбец `"minute"` содержащкоторый будет содержатьий *минуты* - от 0 до 59

- `data['second'] = data["datetime"].dt.second` -> создаёт столбец `"second"` содержащкоторый будет содержатьий *секунды* - от 0 до 59

In [3]:
data["datetime"] = pd.to_datetime(data["datetime"])
data['year'] = data["datetime"].dt.year
data['month'] = data["datetime"].dt.month
data['day'] = data["datetime"].dt.day
data['hour'] = data["datetime"].dt.hour
data['minute'] = data["datetime"].dt.minute
data['second'] = data["datetime"].dt.second

data

Unnamed: 0,datetime,user,year,month,day,hour,minute,second
0,2020-04-17 12:01:08.463179,artem,2020,4,17,12,1,8
1,2020-04-17 12:01:23.743946,artem,2020,4,17,12,1,23
2,2020-04-17 12:27:30.646665,artem,2020,4,17,12,27,30
3,2020-04-17 12:35:44.884757,artem,2020,4,17,12,35,44
4,2020-04-17 12:35:52.735016,artem,2020,4,17,12,35,52
...,...,...,...,...,...,...,...,...
1071,2020-05-21 18:45:20.441142,valentina,2020,5,21,18,45,20
1072,2020-05-21 23:03:06.457819,maxim,2020,5,21,23,3,6
1073,2020-05-21 23:23:49.995349,pavel,2020,5,21,23,23,49
1074,2020-05-21 23:49:22.386789,artem,2020,5,21,23,49,22


## Добавляем столбец `daytime` 

- `bins` -> Это границы интервалов для часов

- `labels` -> Это метки для интервалов с `bins`

- `data["daytime"]` -> создаем столбец новый для сохранения

#### `pd.cut(data["hour"], bins= bins, labels=labels, right=False, include_lowest=True)`

- `pd.cut` категоризирует значения столбца `"hour"`. Например в `data['hour'] = data["datetime"].dt.hour` на основе интервалов заданных в `bins`

- `bins = bins` -> использует указанные границы интервалов

- `labels = labels` -> присваивает каждой категории соответствующую метку из списка `labels`

- `right = False` -> это указывает что правый конец интервала не включается. К примеру `[0, 4]` будет учитываться от 0 до 3

- `include_lowest=True` -> это гарантирует что минимальное значение `0` включено в первый интервал

In [4]:
bins = [0, 4, 7, 11, 17, 20, 24]
labels = ["night", "early morning", "morning", "afternoon", "early evening", "evening"]
data["daytime"] = pd.cut(data["hour"], bins= bins, labels=labels, right=False, include_lowest=True)

data

Unnamed: 0,datetime,user,year,month,day,hour,minute,second,daytime
0,2020-04-17 12:01:08.463179,artem,2020,4,17,12,1,8,afternoon
1,2020-04-17 12:01:23.743946,artem,2020,4,17,12,1,23,afternoon
2,2020-04-17 12:27:30.646665,artem,2020,4,17,12,27,30,afternoon
3,2020-04-17 12:35:44.884757,artem,2020,4,17,12,35,44,afternoon
4,2020-04-17 12:35:52.735016,artem,2020,4,17,12,35,52,afternoon
...,...,...,...,...,...,...,...,...,...
1071,2020-05-21 18:45:20.441142,valentina,2020,5,21,18,45,20,early evening
1072,2020-05-21 23:03:06.457819,maxim,2020,5,21,23,3,6,evening
1073,2020-05-21 23:23:49.995349,pavel,2020,5,21,23,23,49,evening
1074,2020-05-21 23:49:22.386789,artem,2020,5,21,23,49,22,evening


## Устанавливаем столбец `user` как индексы для таблицы

In [5]:
data.set_index("user", inplace=True)

data

Unnamed: 0_level_0,datetime,year,month,day,hour,minute,second,daytime
user,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
artem,2020-04-17 12:01:08.463179,2020,4,17,12,1,8,afternoon
artem,2020-04-17 12:01:23.743946,2020,4,17,12,1,23,afternoon
artem,2020-04-17 12:27:30.646665,2020,4,17,12,27,30,afternoon
artem,2020-04-17 12:35:44.884757,2020,4,17,12,35,44,afternoon
artem,2020-04-17 12:35:52.735016,2020,4,17,12,35,52,afternoon
...,...,...,...,...,...,...,...,...
valentina,2020-05-21 18:45:20.441142,2020,5,21,18,45,20,early evening
maxim,2020-05-21 23:03:06.457819,2020,5,21,23,3,6,evening
pavel,2020-05-21 23:23:49.995349,2020,5,21,23,23,49,evening
artem,2020-05-21 23:49:22.386789,2020,5,21,23,49,22,evening


## Выводим общую сумму элементов в таблице

- Все суммируем

In [6]:
sums = data.count()

sums

datetime    1076
year        1076
month       1076
day         1076
hour        1076
minute      1076
second      1076
daytime     1076
dtype: int64

- Суммируем значение с столбца `daytime`

- Подсчитывает количество уникальных значений в столбце `"daytime"`

In [7]:
daytime_sums = data["daytime"].value_counts()

daytime_sums

daytime
evening          509
afternoon        252
early evening    145
night            129
morning           36
early morning      5
Name: count, dtype: int64

## Сортируем данные по:
- #### hour
- #### minute
- #### second

- `sort_values()` -> сортирует датафрейм *data* по указанным столбцам: `"hour", "minute", "second"`

In [8]:
data_sorted = data.sort_values(by=["hour", "minute", "second"])

data_sorted

Unnamed: 0_level_0,datetime,year,month,day,hour,minute,second,daytime
user,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
valentina,2020-05-15 00:00:13.222265,2020,5,15,0,0,13,night
valentina,2020-05-15 00:01:05.153738,2020,5,15,0,1,5,night
pavel,2020-05-12 00:01:27.764025,2020,5,12,0,1,27,night
pavel,2020-05-12 00:01:38.444917,2020,5,12,0,1,38,night
pavel,2020-05-12 00:01:55.395042,2020,5,12,0,1,55,night
...,...,...,...,...,...,...,...,...
artem,2020-05-21 23:49:22.386789,2020,5,21,23,49,22,evening
anatoliy,2020-05-09 23:53:55.599821,2020,5,9,23,53,55,evening
pavel,2020-05-09 23:54:54.260791,2020,5,9,23,54,54,evening
valentina,2020-05-14 23:58:56.754866,2020,5,14,23,58,56,evening


## Вычисляем минимум и максимум для часов и для `daytime`

- `data.["hour"].min()` -> Вычисляет минимальное значение в столбце `"hour"` датафрейма *data*. Это будет наименьший час присутствующий в данных

- `data.["hour"].max()` -> Вычисляет минимальное значение в столбце `"hour"` датафрейма *data*. Это будет наибольший час присутствующий в данных

- `data["daytime"].mode()[0]` -> Вычисляет *моду* - наиболее часто встречающееся значение. В столбце `"daytime"`

In [9]:
min_h = data["hour"].min()
max_h = data["hour"].max()
daytime_mode = data["daytime"].mode()[0]

daytime_mode

'evening'

## Кто посещал страницу в этот момент

- Активный пользователь Ночью 

- `data[data["daytime"] == "night"]["hour"].max()`
    
    - `data["daytime"] == "night"` -> создаёт булеву маску, которая выбирает строки, где значение столбца `"daytime"` равно `"night"` - это строки, где часы находятся в диапазоне `[0, 4]`
    
    - `data[data["daytime"] == "night"]` -> фильтрует датафрейм *data*, оставляя только строки, соответствующие категории `"night"`

    - `["hour"].max()` -> вычисляет максимальное значение в столбце `"hour"` для отфильтрованных строк

- `data[data["hour"] == max_night_hour].index[0]`
    
    - `data["hour"] == max_night_hour` -> создаёт булеву маску, которая выбирает строки, где значение столбца `"hour"` равно `max_night_hour`

    - `data[data["hour"] == max_night_hour]` — фильтрует датафрейм, оставляя строки с часом, равным `max_night_hour`

    - `.index[0]` -> возвращает индекс первой строки из отфильтрованного датафрейма

In [10]:
max_night_hour = data[data["daytime"] == "night"]["hour"].max()
night_user = data[data["hour"] == max_night_hour].index[0]

night_user

'konstantin'

- Активный пользователь утром

- Тоже самое как и с поиском `"night"`. Просто тут `"morning"`

In [11]:
min_morning_hour = data[data["daytime"] == "morning"]["hour"].min()
morning_user = data[data["hour"] == min_morning_hour].index[0]

morning_user

'alexander'

## 3 пользователя которые были самыми первыми и последними - Утром

- Ранних

- `morning_df = data[data["daytime"] == "morning"]`

    - `data["daytime"] == "morning"` -> cоздаёт булеву маску которая выбирает строки, где значение столбца `"daytime"` равно `"morning"`

    - `data[data["daytime"] == "morning"]` -> фильтрует датафрейм data, оставляя только строки, относящиеся к категории `"morning"`

- `earliest_morning = morning_df.nsmallest(3, "hour")`

    - `nsmallest(3, "hour")` -> выбирает 3 строки из `morning_df` с наименьшими значениями в столбце `"hour"`. Если есть строки с одинаковыми значениями `"hour"`, они все могут быть включены, но общее количество строк будет не больше 3

In [12]:
morning_df = data[data["daytime"] == "morning"]
earliest_morning = morning_df.nsmallest(3, "hour")

earliest_morning["hour"]

user
alexander    8
alexander    8
artem        9
Name: hour, dtype: int32

- Поздних

- `latest_morning = morning_df.nlargest(3, "hour")`

    - `nlargest(3, "hour")` -> выбирает 3 строки из датафрейма `morning_df` с наибольшими значениями в столбце `"hour"`

In [13]:
latest_morning = morning_df.nlargest(3, "hour")

latest_morning['hour']

user
konstantin    10
maxim         10
konstantin    10
Name: hour, dtype: int32

## Статистика

- `describe()` вычисляет основные статистические показатели

In [14]:
data.describe()

Unnamed: 0,datetime,year,month,day,hour,minute,second
count,1076,1076.0,1076.0,1076.0,1076.0,1076.0,1076.0
mean,2020-05-10 09:00:41.211420672,2020.0,4.870818,13.552974,16.249071,29.629182,29.500929
min,2020-04-17 12:01:08.463179,2020.0,4.0,1.0,0.0,0.0,0.0
25%,2020-05-10 01:13:49.857472,2020.0,5.0,11.0,13.0,14.0,14.0
50%,2020-05-11 22:48:35.302552832,2020.0,5.0,13.0,19.0,29.0,30.0
75%,2020-05-14 14:44:34.749530624,2020.0,5.0,15.0,22.0,46.0,45.0
max,2020-05-22 10:36:14.662600,2020.0,5.0,30.0,23.0,59.0,59.0
std,,0.0,0.335557,4.906567,6.95549,17.689388,17.405506


## `IQR` - `Interquartile Range`
## Это функция вычиляет межквартильный размах

- `stat = data["hour"].describe()`

    - `describe()` -> вычисляет основные статистические показатели для столбца `"hour"` в датафрейме *data*. Для числовых данных, `describe()` возвращает следующие метрики:

        - `count` -> количество непропущенных значений

        - `mean` -> среднее значение

        - `std` -> стандартное отклонение

        - `min` -> минимальное значение

        - `25%` -> 25% процентиль - первый квартиль => Q1

        - `50%` -> 50% процентиль - медиана

        - `75%` -> 75% процентиль - третий квартиль => Q3

        - `max` -> максимальное значение

- `iqr = stat["75%"] - stat["25%"]`

    - Вычисляет межквартильный размах - IQR, Interquartile Range. Который равен разнице между третьим квартилем `75%` и первым квартилем `25%`

    - `stat["75%"]` -> значение 75%

    - `stat["25%"]` -> значение 25%

    - `IQR = Q3 - Q1` -> что показывает разброс значений в средней половине данных

In [15]:
stat = data["hour"].describe()
iqr = stat["75%"] - stat["25%"]

iqr

np.float64(9.0)