## Task 4
На предыдущих этапах ты занимался просто подготовкой данных. Ты не получил никакой аналитической информации на основе имеющихся данных. Пришло время приступить к анализу. Помни, что, согласно нашему предположению, пользователи приступили бы к работе над лабораторными заданиями раньше, если бы они просмотрели ленту новостей? Это означает, что ключевой метрикой для нас является период времени (delta) между датой начала работы пользователя над лабораторным заданием (первого коммита) и сроком сдачи лабораторного задания. Мы будем смотреть на то, меняется ли она в зависимости от просмотра страницы.

Что тебе нужно сделать в этом упражнении:

## 1. Создай соединение с базой данных с помощью библиотеки `sqlite3`.

In [1]:
import pandas as pd
import numpy as np
import sqlite3
from pandas import DataFrame

In [2]:
conn = sqlite3.connect("../data/checking-logs.sqlite")

## 2. Получи схему таблицы `test`.

In [3]:
pd.io.sql.read_sql("PRAGMA table_info(test)", conn)

Unnamed: 0,cid,name,type,notnull,dflt_value,pk
0,0,index,INTEGER,0,,0
1,1,uid,TEXT,0,,0
2,2,labname,TEXT,0,,0
3,3,first_commit_ts,TIMESTAMP,0,,0
4,4,first_view_ts,TIMESTAMP,0,,0


## 3. Получи только первые `10` строк таблицы `test`, чтобы проверить, как она выглядит.

In [4]:
pd.io.sql.read_sql("SELECT * from test limit 10;", conn)

Unnamed: 0,index,uid,labname,first_commit_ts,first_view_ts
0,3,user_17,project1,2020-04-18 07:56:45.408648,2020-04-18 10:56:55.833899
1,4,user_30,laba04,2020-04-18 13:36:53.971502,2020-04-17 22:46:26.785035
2,7,user_30,laba04s,2020-04-18 14:51:37.498399,2020-04-17 22:46:26.785035
3,8,user_14,laba04,2020-04-18 15:14:00.312338,2020-04-18 10:53:52.623447
4,11,user_14,laba04s,2020-04-18 22:30:30.247628,2020-04-18 10:53:52.623447
5,18,user_19,laba04,2020-04-20 19:05:01.297780,2020-04-21 20:30:38.034966
6,19,user_25,laba04,2020-04-20 19:16:50.673054,2020-05-09 23:54:54.260791
7,20,user_21,laba04,2020-04-21 17:48:00.487806,2020-04-22 22:40:36.824081
8,21,user_30,project1,2020-04-22 12:36:24.053518,2020-04-17 22:46:26.785035
9,23,user_21,laba04s,2020-04-22 20:09:21.857747,2020-04-22 22:40:36.824081


## 4. Найди среди всех пользователей минимальное значение этой самой дельты (периода времени от даты первого коммита
пользователя до срока сдачи соответствующего лабораторного задания), используя только один запрос.
    - Для этого сджойни данные своей таблицы с данными таблицы `deadlines`.
    - Период времени должен отображаться в часах.
    - Не учитывай лабораторное задание `project1` с более длительным сроком сдачи, поскольку оно будет выделяться на фоне других.
    - Сохрани значение в датафрейме `df_min` с соответствующим `uid`.

In [5]:
df_min = pd.io.sql.read_sql("""SELECT t.uid, CAST(MIN(JULIANDAY(t.first_commit_ts) - 
                            JULIANDAY(dl.deadlines, 'unixepoch'))*24 AS INTEGER) AS 'MIN(diff)'
                            FROM test AS t
                            LEFT JOIN deadlines AS dl
                            ON t.labname = dl.labs
                            WHERE t.labname IN ('laba04','laba04s','laba05','laba06','laba06s');""", 
                            conn)
df_min.to_sql('df_min', conn, if_exists='replace')
df_min

Unnamed: 0,uid,MIN(diff)
0,user_30,-202


## 5. Выполни те же самые операции для максимального значения дельты, используя только **один** запрос. Название итогового датафрейма — `df_max`.

In [6]:
df_max = pd.io.sql.read_sql("""SELECT t.uid, CAST(MAX(JULIANDAY(t.first_commit_ts) - 
                            JULIANDAY(dl.deadlines, 'unixepoch'))*24 AS INTEGER) AS 'MAX(diff)'
                            FROM test AS t
                            LEFT JOIN deadlines AS dl
                            ON t.labname = dl.labs
                            WHERE t.labname IN ('laba04','laba04s','laba05','laba06','laba06s');""", 
                            conn)
df_max.to_sql('df_max', conn, if_exists='replace')
df_max

Unnamed: 0,uid,MAX(diff)
0,user_25,-2


## 6. Выполни те же самые операции для среднего значения дельты, используя только один запрос. На этот раз ваш итоговый датафрейм не должен включать столбец `uid`; имя датафрейма — `df_avg`.

In [7]:
df_avg = pd.io.sql.read_sql("""SELECT AVG(CAST((JULIANDAY(t.first_commit_ts) - 
                            JULIANDAY(dl.deadlines, 'unixepoch'))*24 AS INTEGER)) AS 'AVG(diff)'
                            FROM test AS t
                            LEFT JOIN deadlines AS dl
                            ON t.labname = dl.labs
                            WHERE t.labname IN ('laba04','laba04s','laba05','laba06','laba06s');""", 
                            conn)
df_avg.to_sql('df_avg', conn, if_exists='replace')
df_avg

Unnamed: 0,AVG(diff)
0,-89.125


## 7. Мы хотим проверить предположение о том, что у пользователей, посетивших ленту новостей всего несколько раз, период времени между датой первого коммита и сроком сдачи лабораторного задания меньше. Для этого тебе необходимо рассчитать коэффициент корреляции между количеством просмотров страниц и разницей между датами.
    - Используя только **один** запрос, создай таблицу со столбцами: `uid`, `avg_diff`, `pageviews`.
        - `uid` — это uid, существующие в таблице `test`.
        - `avg_diff` — среднее значение дельты (периода времени между датой первого коммита и сроком сдачи лабораторного задания) для каждого пользователя.
        - `pageviews` — количество посещений ленты новостей одним пользователем.
    - Не учитывай лабораторное задание `project1`.
    - Сохрани результаты в датафрейме `views_diff`.
    - Используй метод `corr()` библиотеки Pandas для вычисления коэффициента корреляции между количеством просмотров и значением дельты.

In [8]:
views_diff = pd.io.sql.read_sql("""SELECT DISTINCT t.uid, t.diff_avg, p.pageviews FROM
            (SELECT uid, AVG(cast((JULIANDAY(test.first_commit_ts) - 
            JULIANDAY(dl.deadlines, 'unixepoch'))*24 AS integer)) AS diff_avg
            FROM test
            LEFT JOIN deadlines AS dl
            ON test.labname = dl.labs
            WHERE test.labname IN ('laba04', 'laba04s', 'laba05', 'laba06', 'laba06s')
            GROUP BY uid) AS t
            LEFT JOIN
            (SELECT uid, COUNT(datetime) AS pageviews
            FROM pageviews
            GROUP BY uid) AS p
            ON t.uid = p.uid""",
            conn, index_col='uid')
views_diff.to_sql('df_avg', conn, if_exists='replace')
views_diff             

Unnamed: 0_level_0,diff_avg,pageviews
uid,Unnamed: 1_level_1,Unnamed: 2_level_1
user_1,-64.4,28
user_10,-74.8,89
user_14,-159.0,143
user_17,-61.6,47
user_18,-5.666667,3
user_19,-98.75,16
user_21,-95.5,10
user_25,-92.6,179
user_28,-86.4,149
user_3,-105.4,317


In [9]:
views_diff.corr()

Unnamed: 0,diff_avg,pageviews
diff_avg,1.0,-0.279736
pageviews,-0.279736,1.0


8. Закрой соединение.

In [21]:
conn.close()