# База данных "Учебная аналитика по курсу"

In [None]:
%load_ext sql
%sql mysql://root:adminadmin@localhost:3306/stepik?charset=utf8

In [None]:
%%sql
SELECT
    version();

In [None]:
/* 
Курс на платформе Stepik состоит из нескольких модулей, 
каждый модуль включает несколько уроков, 
для каждого урока хранится информация о его положении в модуле. 
Каждый урок состоит из последовательности шагов. 
Каждый шаг имеет свой тип (это может быть текст, задание на SQL и пр.) и также порядковый номер в уроке.

Пользователи регистрируются на курсе, указывают свое имя. 
Когда пользователь проходит курс на платформе Stepik, все его действия оставляют "цифровой след": 
какие задания и когда он выполнил, 
сколько попыток сделал, 
правильно ли решил задание. 
Также хранятся все его комментарии. 
Если пользователь проходит курс и получает сертификат, 
то сохраняется дата его выдачи. 
Вся эта информация является первичной для учебной аналитики.

Учебная аналитика – это измерение, сбор, анализ и представление данных об обучающихся и их действиях на online платформе
 с целью понимания и оптимизации учебного процесса и той среды, где этот процесс происходит.

Для данного урока была создана база данных с полным описанием структуры курса. 
Учебная аналитика же включена в базу не в полном объеме, 
а только для некоторой группы пользователей из-за большого объема данных. 
Так, например, информация о решениях 17000 пользователей по нашему курсу 
за полгода его существования содержит 534500 записей. 

Пользователей для базы данных урока мы отобрали так:

отбросили всех, кто не выполнил ни одного задания (их оказалось 8800);
сгруппировали оставшихся пользователей в зависимости от количества решенных заданий, 
вот что получилось (считаем, что те, кто не отсылал задания больше месяца, покинули курс):
 	Всего	Закончили обучение
или покинули курс	Активные пользователи
Выполнили все задания	116	75	41
Получили сертификат	617	470	147
Третий модуль	225	220	5
Второй модуль	940	762	178
Первый модуль, 5-7 урок	1077	891	186
Первый модуль, 4 урок	701	589	112
Первый модуль, 3 урок	823	670	153
Первый модуль, 2 урок	1268	1044	224
Первый модуль, 1 урок	2430	2020	410
затем отобрали типичных представителей групп более или менее пропорционально численности каждой группы (имена пользователей, конечно, заменили);
поскольку пользователи отправляли от 1 до 1000 решений за время прохождения курса, в базу включили только попытки  шагов, относящихся к урокам 1.2, 2.2 и 2.4.
Получилось 64 пользователя и более 2000 их попыток. */

In [None]:
%%sql
/*
 Отобрать все шаги, 
 в которых рассматриваются вложенные запросы (то есть в названии шага упоминаются вложенные запросы). 
 Указать к какому уроку и модулю они относятся. 
 Для этого вывести 3 поля:
 в поле Модуль указать номер модуля и его название через пробел;
 в поле Урок указать номер модуля, порядковый номер урока (lesson_position) через точку и название урока через пробел;
 в поле Шаг указать номер модуля, порядковый номер урока (lesson_position) через точку, порядковый номер шага (step_position) через точку и название шага через пробел.
 Длину полей Модуль и Урок ограничить 19 символами, 
 при этом слишком длинные надписи обозначить многоточием в конце 
 (16 символов - это номер модуля или урока, пробел и  название Урока или Модуля к ним присоединить "..."). 
 Информацию отсортировать 
 по возрастанию номеров модулей, 
 порядковых номеров уроков 
 и порядковых номеров шагов.
 */
SELECT
    CONCAT(
        LEFT(CONCAT(module_id, ' ', module_name), 16),
        '...'
    ) AS Модуль,
    CONCAT(
        LEFT(
            CONCAT(
                module_id,
                '.',
                lesson_position,
                ' ',
                lesson_name
            ),
            16
        ),
        '...'
    ) AS Урок,
    CONCAT(
        module_id,
        '.',
        lesson_position,
        '.',
        step_position,
        ' ',
        step_name
    ) AS Шаг
FROM
    step
    JOIN lesson USING(lesson_id)
    JOIN module USING(module_id)
WHERE
    step_name LIKE '%ложенн%апрос%'
ORDER BY
    module_id,
    lesson_id,
    step_id

In [None]:
%%sql
/*
Заполнить таблицу step_keyword следующим образом: если ключевое слово есть в названии шага, то включить в step_keyword строку с id шага и id ключевого слова. 
*/
SELECT
    step_name,
    keyword_name
FROM
    step,
    keyword
WHERE
    step_name REGEXP CONCAT('\\b', keyword_name, '\\b')

In [None]:
%%sql
/*
 Реализовать поиск по ключевым словам. 
 Вывести шаги, с которыми связаны ключевые слова MAX и AVG одновременно. 
 Для шагов указать 
 - id модуля, 
 - позицию урока в модуле, 
 - позицию шага в уроке через точку, 
 - после позиции шага перед заголовком - пробел. 
 Позицию шага в уроке вывести в виде двух цифр 
 (если позиция шага меньше 10, то перед цифрой поставить 0). 
 Столбец назвать Шаг. 
 Информацию отсортировать по первому столбцу в алфавитном порядке.
 */
SELECT
    CONCAT(
        module_id,
        '.',
        lesson_position,
        '.',
        IF(step_position < 10, CONCAT('0', step_position), step_position),
        ' ',
        step_name
    ) as Шаг
FROM
    step_keyword
    JOIN step USING(step_id)
    JOIN lesson USING(lesson_id)
    JOIN module USING(module_id)
WHERE
    keyword_id IN(
        SELECT
            keyword_id
        FROM
            keyword
        WHERE
            keyword_name IN ('MAX', 'AVG')
    )
GROUP BY
    step_id
HAVING
    COUNT(*) >= 2
ORDER BY
    Шаг

In [None]:
%%sql
/*
 Посчитать, сколько студентов относится к каждой группе. 
 Столбцы назвать Группа, Интервал, Количество. 
 Указать границы интервала.
 */
SELECT
    CASE
        WHEN rate < 11 THEN 'I'
        WHEN rate < 16 THEN 'II'
        WHEN rate < 28 THEN 'III'
        ELSE 'IV'
    END AS Группа,
    CASE
        WHEN rate < 11 THEN 'от 0 до 10'
        WHEN rate < 16 THEN 'от 11 до 15'
        WHEN rate < 28 THEN 'от 16 до 27'
        ELSE 'больше 27'
    END AS Интервал,
    COUNT(student_name) AS Количество
FROM
    (
        SELECT
            student_name,
            COUNT(step_id) AS rate
        FROM
            student
            INNER JOIN step_student USING(student_id)
        WHERE
            result = "correct"
        GROUP BY
            student_name
        ORDER BY
            rate
    ) AS q_in
GROUP BY
    Группа,
    Интервал
ORDER BY
    Группа;

In [None]:
%%sql
/* 
 Исправить запрос примера так: для шагов, которые  не имеют неверных ответов,  
 указать 100 как процент успешных попыток, 
 если же шаг не имеет верных ответов, указать 0. 
 Информацию отсортировать сначала по возрастанию успешности, 
 а затем по названию шага в алфавитном порядке.
 */