# Задания на ClickHouse   

## Идем в песочницу 
https://fiddle.clickhouse.com

## Создаем таблицу `employee_data`
Ссылка на документацию: https://clickhouse.com/docs/ru/sql-reference/statements/create/table

```sql
CREATE TABLE employee_data (
    Age Int32,
    Salary Int32,
    Experience Int32,
    City String,
    Gender String,
    Profession String,
    Industry String,
    Satisfaction_Level Float32,
    Project_Count Int32,
    Bonuses Float32,
    Start_Date Date
) ENGINE = MergeTree()
ORDER BY Age;
```

## Заполняем таблицу данными 
Ссылка на документацию: https://clickhouse.com/docs/ru/sql-reference/statements/insert-into

```sql
INSERT INTO employee_data (
    Age, 
    Salary, 
    Experience, 
    City, 
    Gender, 
    Profession, 
    Industry, 
    Satisfaction_Level, 
    Project_Count, 
    Bonuses, 
    Start_Date
) 
VALUES
(35, 70000, 10, 'Moscow', 'M', 'Engineer', 'Energy', 8.2, 12, 120000, '2020-01-11'),
(45, NULL, 15, 'SPb', 'F', 'Manager', 'Finance', 6.8, NULL, 150000, '2020-02-03'),
(29, 500000, 7, 'Novosibirsk', 'M', 'Developer', 'Technology', 9.0, 22, NULL, '2020-03-21'),
(NULL, 80000, NULL, 'Yekaterinburg', 'F', 'Analyst', 'Technology', 7.5, 14, 130000, '2020-04-05'),
(40, 850000, 14, 'Kazan', 'M', 'Engineer', 'Natural Resources', NULL, 20, 675000, '2020-05-04'),
(33, NULL, 11, 'Omsk', 'F', 'Senior Specialist', 'Natural Resources', 7.0, 17, 125000, NULL),
(28, 60000, NULL, 'Samara', 'M', 'Technician', 'Energy', 8.9, 23, NULL, '2020-07-01'),
(36, 780000, 13, 'Krasnoyarsk', 'F', 'Manager', 'Technology', 6.5, NULL, 130000, '2020-08-01'),
(NULL, 92000, 16, 'Volgograd', 'M', 'Analyst', 'AI', NULL, 15, 140000, '2020-09-06'),
(31, 670000, 9, NULL, 'F', 'Developer', 'Finance', 8.3, 21, 120000, '2019-10-07'),
(35, NULL, NULL, 'Moscow', 'M', 'Engineer', 'Energy', 8.2, NULL, 120000, NULL),
(19, 67787, 9, 'Saratov', 'M', 'Manager', 'Finance', NULL, 21, 120150, '2021-16-01'),
(30, 95000, 14, 'Kazan', 'M', 'Engineer', 'Natural Resources', 8.1, 20, 145000, '2020-05-01'),
(34, 40000, 6, 'Moscow', 'F', 'Analyst', 'Finance', 8.2, 12, 120000, '2020-01-08'),
(15, NULL, 15, 'SPb', 'F', 'Manager', 'Finance', 6.8, NULL, 150000, '2018-02-01'),
(79, 520000, 7, 'Novosibirsk', 'F', 'Developer', 'Finance', 9.0, 22, NULL, '2016-03-21'),
(NULL,60000, NULL, 'Yekaterinburg', 'F', 'Analyst', 'AI', 7.5, 14, 130000, '2020-04-23'),
(20, 351000, 14, 'Kazan', 'F', 'Engineer', 'Natural Resources', NULL, 20, 675000, '2019-05-06'),
(53, NULL, 11, 'Omsk', 'F', 'Senior Specialist', 'Natural Resources', 7.0, 17, 125000, NULL),
(48, 20000, NULL, 'Samara', 'M', 'Technician', 'AI', 8.9, 23, NULL, '2021-07-08'),
(36, 80000, 13, 'Krasnoyarsk', 'M', 'Manager', 'Technology', 6.5, NULL, 130000, '2019-08-11'),
(NULL, 12000, 16, 'Volgograd', 'M', 'Analyst', 'AI', NULL, 15, 140000, '2017-09-19'),
(21, 67000, 9, NULL, 'F', 'Developer', 'Finance', 8.3, 21, 120000, '2021-10-16'),
(65, NULL, NULL, 'Moscow', 'M', 'Engineer', 'Energy', 8.2, NULL, 120000, NULL),
(39, 60700, 9, 'Saratov', 'M', 'Manager', 'Finance', NULL, 21, 120150, '2022-10-13'),
(36, 90000, 14, 'Kazan', 'M', 'Analyst', 'AI', 8.1, 20, 145000, '2010-05-11');

```

## Проверяем, что все корректно 

```sql
select * 
from employee_data
```

## Задание (работа с датой) 
Ссылка на документацию: https://clickhouse.com/docs/en/sql-reference/functions/date-time-functions

### Задание 
Извлечение года, месяца и дня из даты

```sql
SELECT ?
FROM employee_data;
```

### Задание 
Форматироваит даты в определённый строковый формат, например `YYYY_MM_DD`, используйте функцию `formatDateTime`

```sql
SELECT ?
FROM employee_data;
```

### Задание 
Вычислить разницу в днях между `Start_Date` и текущей датой, используйте функцию `dateDiff`:

```sql
SELECT ?
FROM employee_data;
```

### Задание 
Получить начало месяца и года для каждой даты, используйте функции `toStartOfMonth()` и `toStartOfYear()`

```sql
SELECT ?
FROM employee_data;
```

## Задание (комбинаторные функции) 
Ссылка на документацию: https://clickhouse.com/docs/ru/sql-reference/aggregate-functions/combinators

Определить следующее:
1. Среднюю зарплату (`Salary`) для сотрудников с опытом работы больше 10 лет в каждой отрасли.
2. Количество сотрудников в каждой отрасли с уровнем удовлетворённости ниже 6.0.
3. Средний бонус (`Bonuses`) для сотрудников в каждой отрасли, где уровень удовлетворённости больше среднего уровня удовлетворённости по всем отраслям.
4. Найти максимальный и минимальный возраст сотрудников для каждой профессии в каждой отрасли, учитывая только сотрудников, у которых опыт больше 5 лет и зарплата не менее 50000.


```sql
SELECT ?
FROM employee_data
GROUP BY Industry, Profession;
```

## Задание (массивы) 
Ссылка на документацию: https://clickhouse.com/docs/en/sql-reference/functions/array-functions

### Задание
Составьте **один SQL-запрос**, в котором
1. Для каждой отрасли найдите список уникальных профессий, которыми заняты сотрудники этой отрасли, без учёта пола (подсказка: `groupUniqArray`)
2. Составьте список уникальных профессий, которыми заняты только женщины в каждой отрасли (подсказка: `groupUniqArrayIf`)
3. Определите количество уникальных профессий среди женщин в каждой отрасли, то есть посчитайте уникальные профессии из списка профессий, где работают женщины (п2) (подсказка: `groupUniq`)


```sql
SELECT ?
FROM employee_data
GROUP BY Industry;
```

### Задание
Составьте **один SQL-запрос**, в котором
1. Соберите массив зарплат для каждой отрасли, включив в него только зарплаты выше 100,000. Отфильтрованный массив отсортируйте в порядке возрастания, чтобы зарплаты располагались от меньших к большим (подсказка: `groupArray` -> `arrayFilter` -> `arraySort`)
2. Создайте альтернативный массив зарплат для каждой отрасли, также включающий только значения выше 100,000, но используя фильтрацию в самой функции `groupArrayIf`. Отсортируйте массив по возрастанию. (подсказка: `groupArrayIf` -> `arraySort`)


```sql
SELECT ?
FROM employee_data
GROUP BY Industry; 
```

### Задание
Составьте **один SQL-запрос**, в котором
1. Соберите массив зарплат сотрудников в каждой отрасли, отсортировав его по убыванию (подсказка: `arraySort`)
2. Извлеките топ-3 зарплаты для каждой отрасли. Используйте `arraySlice`, чтобы выбрать только первые три значения в отсортированном массиве (подсказка: `arraySlice`)


```sql
SELECT ?
FROM employee_data
GROUP BY Industry;
```

## Задание (lambda функция) 
Ссылка на докуме
нтацию: https://clickhouse.com/docs/ru/sql-reference/functions/tuple-map-functions

Составьте **один SQL-запрос**, в котором
1. Составьте массив зарплат для каждой отрасли, включив только те зарплаты, которые превышают 50,000. Для анализа возможного повышения зарплат увеличьте каждое значение на 10% и округлите результат до одного знака после запятой.
2. Составьте массив опыта сотрудников для каждой отрасли, включив только сотрудников с опытом работы более 5 лет. В результате для каждого сотрудника добавьте к их текущему опыту 2 года

```sql
SELECT ?
FROM employee_data
GROUP BY Industry;
```

## Задание (CTE - common table expression) 
Ссылка на документацию: https://clickhouse.com/docs/en/sql-reference/statements/select/with

Составьте **один SQL-запрос**, в котором
1. **CTE**:
- Сгруппируйте данные по `City` и `Gender`.
- Рассчитайте среднюю зарплату (`AVG(Salary)`) и общее количество сотрудников (`COUNT(*)`) для каждой комбинации города и пола.

2. **Основной запрос**:
- Используйте подзапрос, чтобы объединить его результаты с таблицей `employee_data`, сопоставив сотрудников с их городом и полом.
- Отфильтруйте данные так, чтобы вывести только тех сотрудников, у которых зарплата выше средней зарплаты по их городу и полу.


```sql
with subquery as (
    ?
)
SELECT ?
FROM employee_data AS e
JOIN subquery ON ?
WHERE ?
```

## Задание (оконные функции) 
Ссылка на документацию: https://clickhouse.com/docs/en/sql-reference/window-functions

Составьте **один SQL-запрос**, в котором
1. Для каждой профессии пронумеруйте сотрудников, начиная с самого высокого уровня зарплаты, используя функцию `ROW_NUMBER()`.
2. Используя функцию `RANK()`, создайте ранжирование сотрудников в каждой отрасли на основе их зарплаты (начиная с самой высокой).
3. Рассчитайте скользящее среднее уровня удовлетворённости для текущей строки и двух предыдущих сотрудников с такой же профессией, упорядоченных по зарплате
4. Рассчитайте cумму зарплат всех сотрудников в рамках города

Условия:

- Отобразите все столбцы из таблицы `employee_data` вместе с добавленными оконными функциями.
- Отсортируйте итоговую таблицу по профессии и уровню зарплаты (в порядке убывания).

```sql
SELECT ?
FROM employee_data
ORDER BY ?
```

## Задание (limit by) 
Ссылка на документацию: https://clickhouse.com/docs/en/sql-reference/statements/select/limit-by

Составьте **один SQL-запрос**, который извлекает уникальные записи сотрудников из таблицы employee_data, ограничивая результаты следующим образом:

1.	Отобразите только одну запись для каждой уникальной комбинации профессии (Profession) и города (City).
2.	Отсортируйте данные так, чтобы для каждой профессии результаты отображались в алфавитном порядке профессий, а в рамках каждой профессии записи городов сортировались по убыванию.
3.	Используйте оператор LIMIT BY для ограничения количества записей до одной на каждую комбинацию профессии и города.


```sql
SELECT *
FROM employee_data
ORDER BY ?
LIMIT ?
```

## Задание (any при группировке) 
Ссылка на документацию: https://clickhouse.com/docs/en/sql-reference/aggregate-functions/reference/any

Сгруппируйте записи по профессии и городу и используйте агрегатную функцию `any` для выбора произвольного значения из каждой группы для следующих столбцов: `Salary`, `Experience`, `Satisfaction_Level`

```sql
SELECT ?
FROM employee_data
GROUP BY Profession, City;
```

**А зачем оно надо?**

Допустим, у нас есть вот таблица с отзывами: 

| FeedbackId | SupplierId | UserId | FeedbackText                                | FeedbackValue | FeedbackLikes | UpdatedDateTime |
|------------|------------|--------|-------------------------------------|-------|-------------|-------------|
| 1          | 101        | 1001   | "Great service, highly recommend!" | 5     | 0          |01.01.2025|
| 1          | 101        | 1001   | "Great service, highly recommend!" | 5     | 5          |02.01.2025|
| 1          | 101        | 1001   | "Great service, highly recommend!" | 5     | 25          |03.01.2025|
| 2          | 102        | 1002   | "Delivery was late, but quality is good." | 4     | 1          |03.01.2025|
| 2          | 102        | 1002   | "Delivery was late, but quality is good." | 4     | 4          |04.01.2025|
| 3          | 101        | 1003   | "Not satisfied with the product."  | 2     | 2           |13.01.2025|
| 3          | 101        | 1003   | "Not satisfied with the product."  | 2     | 3           |14.01.2025|
| 4          | 103        | 1004   | "Excellent customer support."      | 5     | 50          |20.01.2025|
| 4          | 103        | 1004   | "Excellent customer support."      | 5     | 130          |21.01.2025|
| 5          | 102        | 1005   | "Product was damaged during shipping." | 1 | 2           |16.01.2025|

---

**Этот запрос не работает** 

Он вызывает ошибку, потому что в `SELECT` мы вызываем колонки, которые **не включёны** в `GROUP BY` (`SupplierId`, `UserId`, `FeedbackText`, `FeedbackValue`). 

```sql
select 
    FeedbackId, 
    SupplierId, 
    UserId, 
    FeedbackText, 
    FeedbackValue, 
    max(FeedbackLikes) as FeedbackLikes
from table
group by FeedbackId
```


**Первый вариант решения** - медленно 
```sql
select 
    FeedbackId, 
    SupplierId, 
    UserId, 
    FeedbackText, 
    FeedbackValue, 
    max(FeedbackLikes) as FeedbackLikes
from table
group by FeedbackId, SupplierId, UserId, FeedbackText, FeedbackValue
```

**Второй вариант решения** - получше 
```sql
select 
    FeedbackId, 
    max(SupplierId) as SupplierId, 
    max(UserId) as UserId, 
    max(FeedbackText) as FeedbackText, 
    max(FeedbackValue) as FeedbackValue, 
    max(FeedbackLikes) as FeedbackLikes
from table
group by FeedbackId
```

**ClickHouse решение** - самый оптимальный
```sql
select 
    FeedbackId, 
    any(SupplierId) as SupplierId, 
    any(UserId) as UserId, 
    any(FeedbackText) as FeedbackText, 
    any(FeedbackValue) as FeedbackValue, 
    any(FeedbackLikes) as FeedbackLikes
from table
group by FeedbackId
```

## Задание (работа со строками)
Ссылка на документацию: https://clickhouse.com/docs/en/sql-reference/functions/string-search-functions

Составьте **один SQL-запрос**, в котором
1. Создайте сокращённое обозначение для каждой записи, используя инициалы города (`City`) и профессии (`Profession`). Инициалы должны быть в формате "C.P.", где первая буква города и первая буква профессии указаны в верхнем регистре, разделённые точками. Например, для города "Moscow" и профессии "Engineer" должно получиться "M.E.".
2. Отфильтруйте записи по названию города. Выберите только те записи, где город начинается с буквы "S" или "K". Используйте регулярное выражение для поиска городов с нужной начальной буквой.

```sql

SELECT ?
FROM employee_data
WHERE ?
```

## Задание (arrayJoin) 
Ссылка на документацию: https://clickhouse.com/docs/en/sql-reference/functions/array-join


1. **Внутри CTE**:
   - Сгруппируйте данные по полю `Gender`, чтобы агрегировать информацию по полу сотрудников.
   - Посчитайте общую сумму зарплат (`Salary`) для каждого пола и назовите этот столбец `sum_salary`.
   - Создайте массив, содержащий уникальные профессии (`Profession`) для каждого пола, используя функцию `groupUniqArray`.
2. **Во внешнем запросе**:
   - Используйте функцию `arrayJoin` для развертывания массива `arr_profession`, чтобы каждая профессия отображалась как отдельная строка.


```sql
with cte as (
  ?
)
SELECT ?
FROM cte;
```

## Задание (удаление таблицы) 
Ссылка на документацию: 
- https://clickhouse.com/docs/en/deletes
- https://clickhouse.com/docs/ru/sql-reference/statements/drop

### Задание 
Удалить всех сотрудников из Москвы


```sql
DELETE FROM employee_data
WHERE City = 'Moscow';
```

### Задание 
Очистить таблицу `employee_data`, удалив все записи, но оставив саму таблицу

```sql
TRUNCATE TABLE employee_data;
```

### Задание 
Полностью удалить таблицу `employee_data` вместе со всей её структурой и данными

```sql 
DROP TABLE employee_data;
```

## Задание (engine) 
Ссылка на документацию: https://clickhouse.com/docs/en/engines/table-engines

Исследуйте различия в обработке данных между таблицами с движками `MergeTree` и `ReplacingMergeTree`, используя их поведение при наличии дубликатов. Выполните следующие шаги:

1. **Создайте две таблицы** с одинаковой структурой, но разными типами движков:
- Таблицу `employee_data_mt` на базе движка `MergeTree`.
- Таблицу `employee_data_rmt` на базе движка `ReplacingMergeTree`, указав в качестве ключа `Start_Date` для замены дубликатов.
2. **Заполните таблицы данными**:
- Вставьте базовые записи для каждой таблицы, указав значения для `Gender`, `City` и `Start_Date`.
- Добавьте дополнительные записи в `employee_data_rmt`, которые имеют дубликаты по `Start_Date`, чтобы протестировать поведение `ReplacingMergeTree`.
3. **Проанализируйте различия в хранении данных**:
- Выполните запрос, который подсчитает количество записей в каждой таблице
- Проанализируйте результат и ответьте на вопросы:
   - Почему количество записей в `employee_data_mt` и `employee_data_rmt` отличается?
   - Какая таблица хранит уникальные записи по ключу `Start_Date`, а какая сохраняет все вставленные данные, включая дубликаты?
4. **Вывод**:
- Сделайте вывод о том, как каждый из движков обрабатывает дубликаты.
- Определите, в каких случаях будет предпочтительнее использовать `MergeTree` или `ReplacingMergeTree` для таблицы, в зависимости от требований к обновляемости и уникальности данных.


```sql
 CREATE TABLE employee_data_mt (
   Gender String,
   City String,
   Start_Date DateTime
 )
 ENGINE = MergeTree()
 ORDER BY (Gender, City);

 CREATE TABLE employee_data_rmt (
   Gender String,
   City String,
   Start_Date DateTime
 )
 ENGINE = ReplacingMergeTree(Start_Date)
 ORDER BY (Gender, City);

-- Вставка данных в таблицу employee_data_mt
INSERT INTO employee_data_mt (Gender, City, Start_Date) VALUES 
    ('M', 'Moscow', '2023-01-01 08:00:00'),
    ('F', 'SPb', '2023-01-01 09:00:00'),
    ('M', 'Kazan', '2023-01-01 10:00:00'),
    ('F', 'Moscow', '2023-01-01 11:00:00'),
    ('M', 'SPb', '2023-01-01 12:00:00');

-- Вставка данных в таблицу employee_data_rmt
INSERT INTO employee_data_rmt (Gender, City, Start_Date) VALUES 
    ('M', 'Moscow', '2023-01-01 08:00:00'),
    ('F', 'SPb', '2023-01-01 09:00:00'),
    ('M', 'Kazan', '2023-01-01 10:00:00'),
    ('F', 'Moscow', '2023-01-01 11:00:00'),
    ('M', 'SPb', '2023-01-01 12:00:00');


-- Добавим дубликаты в таблицу employee_data_mt для тестирования MergeTree
INSERT INTO employee_data_rmt (Gender, City, Start_Date) VALUES 
    ('F', 'Moscow', '2023-01-01 11:00:00'),  
    ('M', 'SPb', '2023-01-01 12:00:00'),   
    ('M', 'Moscow', '2023-01-01 08:00:00');

-- Добавим дубликаты в таблицу employee_data_rmt для тестирования ReplacingMergeTree
INSERT INTO employee_data_rmt (Gender, City, Start_Date) VALUES 
    ('F', 'Moscow', '2023-01-01 11:00:00'),  
    ('M', 'SPb', '2023-01-01 12:00:00'),   
    ('M', 'Moscow', '2023-01-01 08:00:00'); 

OPTIMIZE TABLE employee_data_rmt FINAL; 

SELECT 
  (SELECT COUNT() FROM employee_data_mt) as cnt_mt,
  (SELECT COUNT() FROM employee_data_rmt) as cnt_rmt;
```