# День 10 – Введение в анализ данных

В этом проекте мы поможем вам приобрести навыки работы с библиотекой Pandas. Она является основой для работы с датафреймами. Название этой библиотеки происходит от термина «панельные данные» (panel data), экономико-математического термина для наборов данных, которые включают наблюдения за несколько периодов времени для одних и тех же компаний или людей.

## 0. Импорт библиотек

In [1]:
import pandas as pd

## 1. Task 2 основные операции

В этом упражнении вы будете работать с тем же самым логом посещения пользователей страницы, включая их временные метки.
1.	Создайте датафрейм под названием views с двумя столбцами datetime и user, считав тот же самый файл feed-views.log.
*   Преобразуйте datetime в datetime64[ns] Dtype;
*   извлеките год, месяц, день, час, минуты и секунды из значений этого столбца в новые столбцы.


In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
views = pd.read_csv('../content/drive/MyDrive/School21/Day10/data/feed-views.log',
                 sep='\t',
                 engine='python',
                 header=None,
                 names = ['datetime', 'user']
                 )
views

Unnamed: 0,datetime,user
0,2020-04-17 12:01:08.463179,artem
1,2020-04-17 12:01:23.743946,artem
2,2020-04-17 12:27:30.646665,artem
3,2020-04-17 12:35:44.884757,artem
4,2020-04-17 12:35:52.735016,artem
...,...,...
1071,2020-05-21 18:45:20.441142,valentina
1072,2020-05-21 23:03:06.457819,maxim
1073,2020-05-21 23:23:49.995349,pavel
1074,2020-05-21 23:49:22.386789,artem


In [5]:
views.dtypes

datetime    object
user        object
dtype: object

In [6]:
views = views.astype({'datetime': 'datetime64[ns]'})

In [7]:
views.dtypes

datetime    datetime64[ns]
user                object
dtype: object

In [8]:
views['year'] = views.datetime.dt.year
views['month'] = views.datetime.dt.month
views['day'] = views.datetime.dt.day
views['hour'] = views.datetime.dt.hour
views['minute'] = views.datetime.dt.minute
views['second'] = views.datetime.dt.second
views

Unnamed: 0,datetime,user,year,month,day,hour,minute,second
0,2020-04-17 12:01:08.463179,artem,2020,4,17,12,1,8
1,2020-04-17 12:01:23.743946,artem,2020,4,17,12,1,23
2,2020-04-17 12:27:30.646665,artem,2020,4,17,12,27,30
3,2020-04-17 12:35:44.884757,artem,2020,4,17,12,35,44
4,2020-04-17 12:35:52.735016,artem,2020,4,17,12,35,52
...,...,...,...,...,...,...,...,...
1071,2020-05-21 18:45:20.441142,valentina,2020,5,21,18,45,20
1072,2020-05-21 23:03:06.457819,maxim,2020,5,21,23,3,6
1073,2020-05-21 23:23:49.995349,pavel,2020,5,21,23,23,49
1074,2020-05-21 23:49:22.386789,artem,2020,5,21,23,49,22


2.	Создайте новый столбец daytime.
*   Переведите время в название части суток: если значение часа находится в рамках определенного интервала. Например, afternoon, если значение часа больше 11 и меньше или равно 17; 0:00–03:59 — night, 04:00–06:59 — early morning, 07:00–10:59 — morning, 11:00–16:59 — afternoon, 17:00–19:59 — early evening, 20:00–23:59 — evening.
*   используйте метод cut для решения этой подзадачи;
*   назначьте столбец user в качестве индекса.




In [9]:
views['daytime'] = pd.cut(views.hour,
                          bins=[0, 4, 7, 11, 17, 20, 24],
                          labels=['night', 'early morning', 'morning', 'afternoon', 'early evening', 'evening'],
                          right=False)
views

Unnamed: 0,datetime,user,year,month,day,hour,minute,second,daytime
0,2020-04-17 12:01:08.463179,artem,2020,4,17,12,1,8,afternoon
1,2020-04-17 12:01:23.743946,artem,2020,4,17,12,1,23,afternoon
2,2020-04-17 12:27:30.646665,artem,2020,4,17,12,27,30,afternoon
3,2020-04-17 12:35:44.884757,artem,2020,4,17,12,35,44,afternoon
4,2020-04-17 12:35:52.735016,artem,2020,4,17,12,35,52,afternoon
...,...,...,...,...,...,...,...,...,...
1071,2020-05-21 18:45:20.441142,valentina,2020,5,21,18,45,20,early evening
1072,2020-05-21 23:03:06.457819,maxim,2020,5,21,23,3,6,evening
1073,2020-05-21 23:23:49.995349,pavel,2020,5,21,23,23,49,evening
1074,2020-05-21 23:49:22.386789,artem,2020,5,21,23,49,22,evening


In [10]:
views.set_index('user', drop=True, inplace=True)
views

Unnamed: 0_level_0,datetime,year,month,day,hour,minute,second,daytime
user,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
artem,2020-04-17 12:01:08.463179,2020,4,17,12,1,8,afternoon
artem,2020-04-17 12:01:23.743946,2020,4,17,12,1,23,afternoon
artem,2020-04-17 12:27:30.646665,2020,4,17,12,27,30,afternoon
artem,2020-04-17 12:35:44.884757,2020,4,17,12,35,44,afternoon
artem,2020-04-17 12:35:52.735016,2020,4,17,12,35,52,afternoon
...,...,...,...,...,...,...,...,...
valentina,2020-05-21 18:45:20.441142,2020,5,21,18,45,20,early evening
maxim,2020-05-21 23:03:06.457819,2020,5,21,23,3,6,evening
pavel,2020-05-21 23:23:49.995349,2020,5,21,23,23,49,evening
artem,2020-05-21 23:49:22.386789,2020,5,21,23,49,22,evening


3.	Подсчитайте количество элементов в вашем датафрейме.
*   Используйте метод count();
*   подсчитайте количество элементов в каждой категории частей суток, используя метод value_counts().




In [11]:
views.count(axis='rows')

datetime    1076
year        1076
month       1076
day         1076
hour        1076
minute      1076
second      1076
daytime     1076
dtype: int64

In [12]:
views.daytime.value_counts()

evening          509
afternoon        252
early evening    145
night            129
morning           36
early morning      5
Name: daytime, dtype: int64

4.	Отсортируйте значения в вашем датафрейме по часам, минутам и секундам в порядке возрастания (в рамках одной команды, а не по очереди).

In [13]:
views.sort_values(by=['hour', 'minute', 'second'], inplace=True)
views

Unnamed: 0_level_0,datetime,year,month,day,hour,minute,second,daytime
user,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
valentina,2020-05-15 00:00:13.222265,2020,5,15,0,0,13,night
valentina,2020-05-15 00:01:05.153738,2020,5,15,0,1,5,night
pavel,2020-05-12 00:01:27.764025,2020,5,12,0,1,27,night
pavel,2020-05-12 00:01:38.444917,2020,5,12,0,1,38,night
pavel,2020-05-12 00:01:55.395042,2020,5,12,0,1,55,night
...,...,...,...,...,...,...,...,...
artem,2020-05-21 23:49:22.386789,2020,5,21,23,49,22,evening
anatoliy,2020-05-09 23:53:55.599821,2020,5,9,23,53,55,evening
pavel,2020-05-09 23:54:54.260791,2020,5,9,23,54,54,evening
valentina,2020-05-14 23:58:56.754866,2020,5,14,23,58,56,evening


5.	Рассчитайте минимальное и максимальное значения среди значений часов и моду для категорий частей суток.
*   Рассчитайте максимальное значение среди значений часов для строк, в которых время суток — night;
*   рассчитайте минимальное значение среди значений часов для строк, в которых время суток — morning;
*   в дополнение к этому, выясните, кто посещал страницу в эти часы (подготовьте один пример пользователя);
*   рассчитайте моду для hour и daytime.



In [14]:
views.query('daytime == "night"').hour.max()

3

In [15]:
views.query('daytime == "morning"').hour.min()

8

In [16]:
max_night_hour = views.query('daytime == "night"').hour.max()
min_morning_hour = views.query('daytime == "morning"').hour.min()

In [17]:
views.query('hour == @max_night_hour')

Unnamed: 0_level_0,datetime,year,month,day,hour,minute,second,daytime
user,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
konstantin,2020-04-19 03:23:35.471598,2020,4,19,3,23,35,night
konstantin,2020-04-19 03:23:55.473926,2020,4,19,3,23,55,night
konstantin,2020-04-19 03:33:07.757714,2020,4,19,3,33,7,night


In [18]:
views.query('hour == @min_morning_hour')

Unnamed: 0_level_0,datetime,year,month,day,hour,minute,second,daytime
user,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
alexander,2020-05-15 08:16:03.918402,2020,5,15,8,16,3,morning
alexander,2020-05-15 08:35:01.471463,2020,5,15,8,35,1,morning


In [19]:
views.hour.value_counts().index[0]

22

In [20]:
views.daytime.value_counts().index[0]

'evening'

6.	Отобразите 3 самых ранних часа утром вместе с соответствующими именами пользователей, а также 3 самых поздних часа и имена пользователей с помощью nsmallest() и nlargest().

In [21]:
views.nsmallest(3, 'hour', keep='first')

Unnamed: 0_level_0,datetime,year,month,day,hour,minute,second,daytime
user,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
valentina,2020-05-15 00:00:13.222265,2020,5,15,0,0,13,night
valentina,2020-05-15 00:01:05.153738,2020,5,15,0,1,5,night
pavel,2020-05-12 00:01:27.764025,2020,5,12,0,1,27,night


In [26]:
views.nlargest(3, 'hour', keep='last')

Unnamed: 0_level_0,datetime,year,month,day,hour,minute,second,daytime
user,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
alexander,2020-05-14 23:59:38.758438,2020,5,14,23,59,38,evening
valentina,2020-05-14 23:58:56.754866,2020,5,14,23,58,56,evening
pavel,2020-05-09 23:54:54.260791,2020,5,9,23,54,54,evening


In [27]:
pd.DataFrame({'hour':views.query('daytime == "morning"').hour.unique()}).nsmallest(3, columns='hour')

Unnamed: 0,hour
0,8
1,9
2,10


In [31]:
pd.DataFrame({'hour':views.query('daytime == "evening"').hour.unique()}).nlargest(3, columns='hour')

Unnamed: 0,hour
3,23
2,22
1,21


7.	Используйте метод describe(), чтобы получить базовую статистику по столбцам.
*   Дополнительно определите самый популярный интервал посещения страницы: вычислите интерквартильный диапазон для часа путем извлечения значений из результата метода describe() и сохраните полученные данные в переменной iqr.


In [28]:
views.describe()

Unnamed: 0,year,month,day,hour,minute,second
count,1076.0,1076.0,1076.0,1076.0,1076.0,1076.0
mean,2020.0,4.870818,13.552974,16.249071,29.629182,29.500929
std,0.0,0.335557,4.906567,6.95549,17.689388,17.405506
min,2020.0,4.0,1.0,0.0,0.0,0.0
25%,2020.0,5.0,11.0,13.0,14.0,14.0
50%,2020.0,5.0,13.0,19.0,29.0,30.0
75%,2020.0,5.0,15.0,22.0,46.0,45.0
max,2020.0,5.0,30.0,23.0,59.0,59.0


In [29]:
iqr = views.describe().loc['75%', 'hour'] - views.describe().loc['25%', 'hour']
iqr

9.0