In [1]:
# Данный python-скрипт имитирует запрос к БД
# Напишите ваш SQL-запрос в query и запустите данный python-скрипт для получения результата
# Перед запуском скрипта установите библиотеку duckdb

# Установка библиотеки duckdb
# pip install duckdb duckdb-engine

# Импорт библиотек
import pandas as pd
import duckdb

# Задание таблиц БД
users = pd.read_csv('users.csv')
course_users = pd.read_csv('course_users.csv')
courses = pd.read_csv('courses.csv')
course_types = pd.read_csv('course_types.csv')
lessons = pd.read_csv('lessons.csv')
subjects = pd.read_csv('subjects.csv')
cities = pd.read_csv('cities.csv')
homework_done = pd.read_csv('homework_done.csv')
homework = pd.read_csv('homework.csv')
homework_lessons = pd.read_csv('homework_lessons.csv')
user_roles = pd.read_csv('user_roles.csv') 

# Задание SQL-запроса
query = """
-- Напишите здесь ваш SQL-запрос
SELECT
    -- Информация про курс
    courses.id as ID_курса,
    courses.name as Название_курса,
    subjects.name as Предмет,
    subjects.project as Тип_предмета,
    course_types.name as Тип_курса,
    courses.starts_at as Дата_старта_курса,

    -- Информация про ученика
    course_users.user_id as ID_ученика,
    users.last_name as Фамилия_ученика,
    cities.name as Город_ученика,
    course_users.active as Ученик_не_отчислен_с_курса,
    course_users.created_at as Дата_открытия_курса_ученику,
    
    -- Считаем открытые полные месяцы, как число открытых уроков/кол-во уроков в месяц на данном курсе
    -- остаток не учитываем, тк в данном случае получится неполный месяц
    CASE 
        WHEN courses.lessons_in_month > 0 
            THEN FLOOR(course_users.available_lessons / courses.lessons_in_month)
        ELSE 0 
    END as Число_открытых_полных_месяцев_курса,
    
    -- Посчитаем количество сданных дз, как уникальный с соответсующими id
    COUNT(DISTINCT homework_done.homework_id) AS Число_сданных_дз
    
FROM
    -- LEFT JOIN на случаи вдруг какой-то информации нет в табличке, чтобы выдавало вместо нее NULL
    courses
    LEFT JOIN subjects on courses.subject_id = subjects.id
    LEFT JOIN course_types on courses.course_type_id = course_types.id
    
    LEFT JOIN course_users on course_users.course_id = courses.id
    INNER JOIN users on course_users.user_id = users.id
    LEFT JOIN cities on cities.id = users.city_id
    
    LEFT JOIN lessons on courses.id = lessons.course_id
    LEFT JOIN homework_lessons on lessons.id = homework_lessons.lesson_id
    LEFT JOIN homework_done on homework_done.homework_id = homework_lessons.homework_id
        AND course_users.user_id = homework_done.user_id
WHERE
    -- Фильтруем необходимую информацию
    course_types.name like '%Годовой%' and subjects.project in ('ОГЭ','ЕГЭ')
GROUP BY
    -- Группируем для подсчета количества сделанных дз
    courses.id, courses.name,
    subjects.name, subjects.project,
    course_types.name,
    courses.starts_at,
    
    course_users.user_id,
    users.last_name,
    cities.name,
    course_users.active,
    course_users.created_at,
    
    lessons_in_month,
    course_users.available_lessons
"""

# Выполнение SQL-запроса
df_result = duckdb.query(query).to_df()

# Вывод результата
display(df_result)

Unnamed: 0,ID_курса,Название_курса,Предмет,Тип_предмета,Тип_курса,Дата_старта_курса,ID_ученика,Фамилия_ученика,Город_ученика,Ученик_не_отчислен_с_курса,Дата_открытия_курса_ученику,Число_открытых_полных_месяцев_курса,Число_сданных_дз
0,21,Годовой 2к25 стандарт,Химия,ЕГЭ,Годовой,2024-09-16,10148,Fox,Химки,1,2024-07-28 19:30:13,9.0,16
1,16,Годовой 2к25 стандарт,Обществознание,ЕГЭ,Годовой,2024-09-16,10131,Якунина,Волгоград,1,2024-09-05 19:00:46,2.0,11
2,16,Годовой 2к25 стандарт,Обществознание,ЕГЭ,Годовой,2024-09-16,10327,Левченко,Ессентуки,1,2024-07-30 14:48:42,3.0,17
3,19,Годовой 2к25 стандарт,Русский,ЕГЭ,Годовой,2024-09-21,10227,Мильковская,Москва,1,2024-07-29 16:16:45,9.0,14
4,19,Годовой 2к25 стандарт,Русский,ЕГЭ,Годовой,2024-09-21,10087,Бакирова,Набережные Челны,1,2024-07-27 14:17:19,2.0,6
...,...,...,...,...,...,...,...,...,...,...,...,...,...
5878,25,Годовой 2к25 стандарт,Биология,ЕГЭ,Годовой,2024-09-17,10545,Ярбилова,Махачкала,1,2024-07-31 19:10:56,1.0,0
5879,17,Годовой 2к25 стандарт,Английский язык,ЕГЭ,Годовой,2024-09-20,30621,Смирнова,Москва,0,2024-10-02 19:07:14,0.0,0
5880,41,Годовой 2К25 стандарт с Катей,Математика,ЕГЭ,Годовой,2024-10-15,25713,Овчинникова,Ангарск,1,2024-11-07 08:17:36,2.0,0
5881,25,Годовой 2к25 стандарт,Биология,ЕГЭ,Годовой,2024-09-17,28022,Зотова,Челябинск,0,2024-10-01 18:55:05,0.0,0


### Предобработка

In [2]:
# Посмотрим какие есть типы, сколько пропусков
df_result.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5883 entries, 0 to 5882
Data columns (total 13 columns):
 #   Column                               Non-Null Count  Dtype  
---  ------                               --------------  -----  
 0   ID_курса                             5883 non-null   int64  
 1   Название_курса                       5883 non-null   object 
 2   Предмет                              5883 non-null   object 
 3   Тип_предмета                         5883 non-null   object 
 4   Тип_курса                            5883 non-null   object 
 5   Дата_старта_курса                    5883 non-null   object 
 6   ID_ученика                           5883 non-null   int64  
 7   Фамилия_ученика                      5883 non-null   object 
 8   Город_ученика                        5540 non-null   object 
 9   Ученик_не_отчислен_с_курса           5883 non-null   int64  
 10  Дата_открытия_курса_ученику          5883 non-null   object 
 11  Число_открытых_полных_месяцев_

In [3]:
# Сконверттим типы в более подходящие автоматически, и сами поменяем строки на дату
df = df_result.convert_dtypes()

df['Дата_старта_курса'] = pd.to_datetime(df['Дата_старта_курса'])
df['Дата_открытия_курса_ученику'] = pd.to_datetime(df['Дата_открытия_курса_ученику'])

In [4]:
# Смотрим типы еще раз
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5883 entries, 0 to 5882
Data columns (total 13 columns):
 #   Column                               Non-Null Count  Dtype         
---  ------                               --------------  -----         
 0   ID_курса                             5883 non-null   Int64         
 1   Название_курса                       5883 non-null   string        
 2   Предмет                              5883 non-null   string        
 3   Тип_предмета                         5883 non-null   string        
 4   Тип_курса                            5883 non-null   string        
 5   Дата_старта_курса                    5883 non-null   datetime64[ns]
 6   ID_ученика                           5883 non-null   Int64         
 7   Фамилия_ученика                      5883 non-null   string        
 8   Город_ученика                        5540 non-null   string        
 9   Ученик_не_отчислен_с_курса           5883 non-null   Int64         
 10  Дата_открыти

В итоге, получили типы, подходящие под их описание и удобные для дальнейшей обработки. <br>
Также заметим, что имеются пропуски только в названия городах, что вероятно не очень критично для нас. А также в числе полных открытых месяцев

In [5]:
# Посмотрим, на наши пропуски в числе открытых месяцев
df[df['Число_открытых_полных_месяцев_курса'].isna()].head()

Unnamed: 0,ID_курса,Название_курса,Предмет,Тип_предмета,Тип_курса,Дата_старта_курса,ID_ученика,Фамилия_ученика,Город_ученика,Ученик_не_отчислен_с_курса,Дата_открытия_курса_ученику,Число_открытых_полных_месяцев_курса,Число_сданных_дз
352,74,Годовой курс 2к25 комбо (биология + обществозн...,Обществознание ОГЭ,ОГЭ,Годовой,2024-09-22,28458,Вакуликова,Волжский,1,2024-09-25 08:18:00,,0
649,39,Годовой курс 2к25 комбо (русский + обществозна...,Обществознание ОГЭ,ОГЭ,Годовой,2024-09-15,28071,Павлов,Архангельск,1,2024-09-25 07:17:49,,0
902,39,Годовой курс 2к25 комбо (русский + обществозна...,Обществознание ОГЭ,ОГЭ,Годовой,2024-09-15,30135,Подгузова,Рязань,1,2024-10-01 14:27:08,,0
1120,39,Годовой курс 2к25 комбо (русский + обществозна...,Обществознание ОГЭ,ОГЭ,Годовой,2024-09-15,28022,Зотова,Челябинск,1,2024-09-23 15:16:39,,0
1681,39,Годовой курс 2к25 комбо (русский + обществозна...,Обществознание ОГЭ,ОГЭ,Годовой,2024-09-15,28914,Цып,Великие Луки,1,2024-09-26 21:12:10,,0


In [6]:
# Заполним всем этим людям, колво доступных уроково нулями
df['Число_открытых_полных_месяцев_курса'] = df['Число_открытых_полных_месяцев_курса'].fillna(0)

# Посмотрим, что больше нет пропусков кроме городов
df.isna().sum()

ID_курса                                 0
Название_курса                           0
Предмет                                  0
Тип_предмета                             0
Тип_курса                                0
Дата_старта_курса                        0
ID_ученика                               0
Фамилия_ученика                          0
Город_ученика                          343
Ученик_не_отчислен_с_курса               0
Дата_открытия_курса_ученику              0
Число_открытых_полных_месяцев_курса      0
Число_сданных_дз                         0
dtype: int64

In [7]:
# Посчитаем наличие дубликатов
print(f"Количество дубликатов = {df.duplicated().sum()}")

Количество дубликатов = 0


In [8]:
# Посмотрим статистики по числовым переменным
df.describe()

Unnamed: 0,ID_курса,Дата_старта_курса,ID_ученика,Ученик_не_отчислен_с_курса,Дата_открытия_курса_ученику,Число_открытых_полных_месяцев_курса,Число_сданных_дз
count,5883.0,5883,5883.0,5883.0,5883,5883.0,5883.0
mean,23.395716,2024-09-20 19:54:44.242733312,24667.699473,0.940507,2024-09-19 04:08:14.391296768,2.174571,9.863505
min,16.0,2024-09-15 00:00:00,10001.0,0.0,2024-07-25 18:04:20,0.0,0.0
25%,16.0,2024-09-16 00:00:00,10989.0,1.0,2024-09-16 13:51:28.500000,2.0,4.0
50%,19.0,2024-09-17 00:00:00,28326.0,1.0,2024-09-26 11:41:28,2.0,10.0
75%,23.0,2024-09-21 00:00:00,30597.5,1.0,2024-10-09 17:44:41,2.0,15.0
max,103.0,2024-11-23 00:00:00,33999.0,1.0,2024-11-10 10:46:53,10.0,34.0
std,14.111006,,8641.454251,0.236566,,1.734783,7.100524


Глядя на полученные статистические величины, можно заметить, что каких то заметных выбросов не наблюдается

### Разбиение на волны

In [9]:
def waves(x):
    # Считаем разницу между датами присоединения и начала
    # получим timedelta, от которого берем дни
    diff = (x['Дата_открытия_курса_ученику'] - x['Дата_старта_курса']).days

    # Везде даты береме включительно
    if diff <= 0:
        return 0
    elif diff <= 7:
        return 1
    elif diff <= 14:
        return 2
    elif diff <= 21:
        return 3
    elif diff <= 28:
        return 4
    else:
        return 5

# Применяем нашу функцию построчно
df['Волны'] = df.apply(waves, axis=1)

In [10]:
df.head()

Unnamed: 0,ID_курса,Название_курса,Предмет,Тип_предмета,Тип_курса,Дата_старта_курса,ID_ученика,Фамилия_ученика,Город_ученика,Ученик_не_отчислен_с_курса,Дата_открытия_курса_ученику,Число_открытых_полных_месяцев_курса,Число_сданных_дз,Волны
0,21,Годовой 2к25 стандарт,Химия,ЕГЭ,Годовой,2024-09-16,10148,Fox,Химки,1,2024-07-28 19:30:13,9,16,0
1,16,Годовой 2к25 стандарт,Обществознание,ЕГЭ,Годовой,2024-09-16,10131,Якунина,Волгоград,1,2024-09-05 19:00:46,2,11,0
2,16,Годовой 2к25 стандарт,Обществознание,ЕГЭ,Годовой,2024-09-16,10327,Левченко,Ессентуки,1,2024-07-30 14:48:42,3,17,0
3,19,Годовой 2к25 стандарт,Русский,ЕГЭ,Годовой,2024-09-21,10227,Мильковская,Москва,1,2024-07-29 16:16:45,9,14,0
4,19,Годовой 2к25 стандарт,Русский,ЕГЭ,Годовой,2024-09-21,10087,Бакирова,Набережные Челны,1,2024-07-27 14:17:19,2,6,0


In [11]:
# Сохраним для следующего задания
df.to_csv("courses.txt")