# Продвинутый SQL

Проект состоит из двух частей: 

* В первой части вы решите несколько задач в SQL-тренажёре, чтобы закрепить пройденный материал.
* Вторая часть проекта — аналитическая. Проверять задачи по-прежнему будет тренажёр. Однако мы рекомендуем самостоятельно анализировать полученные результаты и формулировать выводы.

Внимательно читайте условия. Формулировки задач в проекте приближены к реальной жизни. В работе часто встретятся такие формулировки: «рассчитать LTV за последние 30 дней», «отобразить самых активных покупателей» или даже «определить, почему в компании упали продажи».

В самостоятельном проекте вы будете работать с базой данных **StackOverflow** — сервиса вопросов и ответов о программировании. StackOverflow похож на социальную сеть — пользователи сервиса задают вопросы, отвечают на посты, оставляют комментарии и ставят оценки другим ответам.

Вы будете работать с версией базы, где хранятся данные о постах за 2008 год, но в таблицах вы найдёте информацию и о более поздних оценках, которые эти посты получили. 
Изучите ER-диаграмму базы:

<img 
     src="other/images/project7_sql.png" 
     height="800" 
     width="800" />

Теперь познакомьтесь с данными таблиц.

**`stackoverflow.badges`**

Хранит информацию о значках, которые присуждаются за разные достижения. Например, пользователь, правильно ответивший на большое количество вопросов про PostgreSQL, может получить значок postgresql. 

* id	Идентификатор значка, первичный ключ таблицы
* name	Название значка
* user_id	Идентификатор пользователя, которому присвоили значок, внешний ключ, отсылающий к таблице users
* creation_date	Дата присвоения значка

**`stackoverflow.post_types`**

Содержит информацию о типе постов. Их может быть два:

* Question — пост с вопросом;
* Answer — пост с ответом.

* id	Идентификатор поста, первичный ключ таблицы
* type	Тип поста

**`stackoverflow.posts`**

Содержит информацию о постах.

* id	Идентификатор поста, первичный ключ таблицы
* title	Заголовок поста
* creation_date	Дата создания поста
* favorites_count	Число, которое показывает, сколько раз пост добавили в «Закладки»
* last_activity_date	Дата последнего действия в посте, например комментария
* last_edit_date	Дата последнего изменения поста
* user_id	Идентификатор пользователя, который создал пост, внешний ключ к таблице users
* parent_id	Если пост написали в ответ на другую публикацию, в это поле попадёт идентификатор поста с вопросом
* post_type_id	Идентификатор типа поста, внешний ключ к таблице post_types
* score	Количество очков, которое набрал пост
* views_count	Количество просмотров

**`stackoverflow.users`**

Содержит информацию о пользователях.

* id	Идентификатор пользователя, первичный ключ таблицы
* creation_date	Дата регистрации пользователя
* display_name	Имя пользователя
* last_access_date	Дата последнего входа
* location	Местоположение
* reputation	Очки репутации, которые получают за хорошие вопросы и полезные ответы
* views	Число просмотров профиля пользователя

**`stackoverflow.vote_types`**

Содержит информацию о типах голосов. Голос — это метка, которую пользователи ставят посту. Типов бывает несколько: 

* UpMod — такую отметку получают посты с вопросами или ответами, которые пользователи посчитали уместными и полезными.
* DownMod — такую отметку получают посты, которые показались пользователям наименее полезными.
* Close — такую метку ставят опытные пользователи сервиса, если заданный вопрос нужно доработать или он вообще не подходит для платформы.
* Offensive — такую метку могут поставить, если пользователь ответил на вопрос в грубой и оскорбительной манере, например, указав на неопытность автора поста.
* Spam — такую метку ставят в случае, если пост пользователя выглядит откровенной рекламой.

* id	Идентификатор типа голоса, первичный ключ
* name	Название метки

**`stackoverflow.votes`**

Содержит информацию о голосах за посты. 

* id	Идентификатор голоса, первичный ключ
* post_id	Идентификатор поста, внешний ключ к таблице posts
* user_id	Идентификатор пользователя, который поставил посту голос, внешний ключ к таблице users
* bounty_amount	Сумма вознаграждения, которое назначают, чтобы привлечь внимание к посту
* vote_type_id	Идентификатор типа голоса, внешний ключ к таблице vote_types
* creation_date	Дата назначения голоса


## **`ПЕРВАЯ ЧАСТЬ`**

## Задача 1

Найдите количество вопросов, которые набрали больше 300 очков или как минимум 100 раз были добавлены в «Закладки».

In [14]:
'''
SELECT COUNT(s_p.id)
FROM stackoverflow.posts AS s_p
WHERE s_p.post_type_id = 1
  AND s_p.score > 300
   OR s_p.favorites_count >= 100;
'''

'\nSELECT COUNT(s_p.id)\nFROM stackoverflow.posts AS s_p\nWHERE s_p.post_type_id = 1\n  AND s_p.score > 300\n   OR s_p.favorites_count >= 100;\n'

## Задача 2

Сколько в среднем в день задавали вопросов с 1 по 18 ноября 2008 включительно? Результат округлите до целого числа.

In [15]:
'''
WITH t_1 AS (
SELECT CAST(s_p.creation_date AS date) AS dt,
       COUNT(s_p.id) AS questions_count
FROM stackoverflow.posts AS s_p
WHERE s_p.post_type_id = 1
GROUP BY dt)

SELECT ROUND(AVG(questions_count)) AS avg_questions_count
FROM t_1
WHERE dt BETWEEN '2008-11-1' AND '2008-11-18';
'''

"\nWITH t_1 AS (\nSELECT CAST(s_p.creation_date AS date) AS dt,\n       COUNT(s_p.id) AS questions_count\nFROM stackoverflow.posts AS s_p\nWHERE s_p.post_type_id = 1\nGROUP BY dt)\n\nSELECT ROUND(AVG(questions_count)) AS avg_questions_count\nFROM t_1\nWHERE dt BETWEEN '2008-11-1' AND '2008-11-18';\n"

## Задача 3

Сколько пользователей получили значки сразу в день регистрации? Выведите количество уникальных пользователей.

In [16]:
'''
SELECT COUNT(DISTINCT(s_u.id))
FROM stackoverflow.users AS s_u
JOIN stackoverflow.badges AS s_b ON s_b.user_id = s_u.id
WHERE CAST(s_u.creation_date AS date) = CAST(s_b.creation_date AS date); 
'''

'\nSELECT COUNT(DISTINCT(s_u.id))\nFROM stackoverflow.users AS s_u\nJOIN stackoverflow.badges AS s_b ON s_b.user_id = s_u.id\nWHERE CAST(s_u.creation_date AS date) = CAST(s_b.creation_date AS date); \n'

## Задача 4

Сколько уникальных постов пользователя с именем Joel Coehoorn получили хотя бы один голос?

In [20]:
'''
SELECT COUNT(DISTINCT(s_p.id))
FROM stackoverflow.users AS s_u
JOIN stackoverflow.posts AS s_p ON s_u.id = s_p.user_id
RIGHT JOIN stackoverflow.votes AS s_v ON s_p.id = s_v.post_id
WHERE s_u.display_name = 'Joel Coehoorn';
'''

"\nSELECT COUNT(DISTINCT(s_p.id))\nFROM stackoverflow.users AS s_u\nJOIN stackoverflow.posts AS s_p ON s_u.id = s_p.user_id\nRIGHT JOIN stackoverflow.votes AS s_v ON s_p.id = s_v.post_id\nWHERE s_u.display_name = 'Joel Coehoorn';\n"

## Задача 5

Выгрузите все поля таблицы vote_types. Добавьте к таблице поле rank, в которое войдут номера записей в обратном порядке. Таблица должна быть отсортирована по полю id.

In [21]:
'''
SELECT *,
       RANK () OVER (ORDER BY id DESC) AS rank
FROM stackoverflow.vote_types AS s_vt
ORDER BY s_vt.id; 
'''

'\nSELECT *,\n       RANK () OVER (ORDER BY id DESC) AS rank\nFROM stackoverflow.vote_types AS s_vt\nORDER BY s_vt.id; \n'

## Задача 6

Отберите 10 пользователей, которые поставили больше всего голосов типа Close. Отобразите таблицу из двух полей: идентификатором пользователя и количеством голосов. Отсортируйте данные сначала по убыванию количества голосов, потом по убыванию значения идентификатора пользователя.

In [22]:
'''
SELECT s_v.user_id AS user_votes,
       COUNT(s_v.id) AS votes_cnt
FROM stackoverflow.votes AS s_v
JOIN stackoverflow.vote_types AS s_vt ON s_vt.id = s_v.vote_type_id
WHERE name = 'Close'  
GROUP BY user_votes
ORDER BY votes_cnt DESC, user_votes DESC
LIMIT 10;
'''

"\nSELECT s_v.user_id AS user_votes,\n       COUNT(s_v.id) AS votes_cnt\nFROM stackoverflow.votes AS s_v\nJOIN stackoverflow.vote_types AS s_vt ON s_vt.id = s_v.vote_type_id\nWHERE name = 'Close'  \nGROUP BY user_votes\nORDER BY votes_cnt DESC, user_votes DESC\nLIMIT 10;\n"

## Задача 7

Отберите 10 пользователей по количеству значков, полученных в период с 15 ноября по 15 декабря 2008 года включительно.

Отобразите несколько полей:

* идентификатор пользователя;
* число значков;
* место в рейтинге — чем больше значков, тем выше рейтинг.

Пользователям, которые набрали одинаковое количество значков, присвойте одно и то же место в рейтинге.

Отсортируйте записи по количеству значков по убыванию, а затем по возрастанию значения идентификатора пользователя.

In [23]:
'''
SELECT s_b.user_id,
       COUNT (s_b.id),
       DENSE_RANK () OVER (ORDER BY COUNT (s_b.id) DESC)
FROM stackoverflow.badges AS s_b      
WHERE CAST(s_b.creation_date AS date) BETWEEN '2008-11-15' AND '2008-12-15'
GROUP BY s_b.user_id
ORDER BY COUNT (s_b.id) DESC,
         s_b.user_id
LIMIT 10; 
'''

"\nSELECT s_b.user_id,\n       COUNT (s_b.id),\n       DENSE_RANK () OVER (ORDER BY COUNT (s_b.id) DESC)\nFROM stackoverflow.badges AS s_b      \nWHERE CAST(s_b.creation_date AS date) BETWEEN '2008-11-15' AND '2008-12-15'\nGROUP BY s_b.user_id\nORDER BY COUNT (s_b.id) DESC,\n         s_b.user_id\nLIMIT 10; \n"

## Задача 8

Сколько в среднем очков получает пост каждого пользователя?

Сформируйте таблицу из следующих полей:

* заголовок поста;
* идентификатор пользователя;
* число очков поста;
* среднее число очков пользователя за пост, округлённое до целого числа.

Не учитывайте посты без заголовка, а также те, что набрали ноль очков.

In [24]:
'''
SELECT s_p.title, 
       s_p.user_id, 
       s_p.score,
       ROUND(AVG(s_p.score) OVER (PARTITION BY s_p.user_id))::int
FROM stackoverflow.posts AS s_p    
WHERE s_p.title IS NOT NULL
      AND s_p.score != 0; 
'''

'\nSELECT s_p.title, \n       s_p.user_id, \n       s_p.score,\n       ROUND(AVG(s_p.score) OVER (PARTITION BY s_p.user_id))::int\nFROM stackoverflow.posts AS s_p    \nWHERE s_p.title IS NOT NULL\n      AND s_p.score != 0; \n'

## Задача 9

Отобразите заголовки постов, которые были написаны пользователями, получившими более 1000 значков. Посты без заголовков не должны попасть в список.

In [25]:
'''
SELECT s_p.title
FROM stackoverflow.posts AS s_p
WHERE s_p.title IS NOT NULL 
  AND s_p.user_id IN (
        SELECT s_b.user_id 
        FROM stackoverflow.badges AS s_b
        GROUP BY s_b.user_id
        HAVING COUNT(s_b.id) > 1000); 
'''

'\nSELECT s_p.title\nFROM stackoverflow.posts AS s_p\nWHERE s_p.title IS NOT NULL \n  AND s_p.user_id IN (\n        SELECT s_b.user_id \n        FROM stackoverflow.badges AS s_b\n        GROUP BY s_b.user_id\n        HAVING COUNT(s_b.id) > 1000); \n'

## Задача 10

Напишите запрос, который выгрузит данные о пользователях из Канады (англ. Canada). Разделите пользователей на три группы в зависимости от количества просмотров их профилей:

* пользователям с числом просмотров больше либо равным 350 присвойте группу 1;
* пользователям с числом просмотров меньше 350, но больше либо равно 100 — группу 2;
* пользователям с числом просмотров меньше 100 — группу 3.

Отобразите в итоговой таблице идентификатор пользователя, количество просмотров профиля и группу. Пользователи с количеством просмотров меньше либо равным нулю не должны войти в итоговую таблицу.

In [26]:
'''
SELECT id,
       views,
       CASE
          WHEN views >= 350 THEN 1
          WHEN views < 350 AND views >= 100 THEN 2
          ELSE 3
       END AS group
FROM stackoverflow.users
WHERE location LIKE '%Canada%' AND views > 0
ORDER BY views DESC; 
'''

"\nSELECT id,\n       views,\n       CASE\n          WHEN views >= 350 THEN 1\n          WHEN views < 350 AND views >= 100 THEN 2\n          ELSE 3\n       END AS group\nFROM stackoverflow.users\nWHERE location LIKE '%Canada%' AND views > 0\nORDER BY views DESC; \n"

## Задача 11

Дополните предыдущий запрос. Отобразите лидеров каждой группы — пользователей, которые набрали максимальное число просмотров в своей группе. Выведите поля с идентификатором пользователя, группой и количеством просмотров. Отсортируйте таблицу по убыванию просмотров, а затем по возрастанию значения идентификатора.

In [27]:
'''
WITH t_1 AS (
SELECT id AS user_id,
       views AS views_cnt,
       CASE
          WHEN views >= 350 THEN 1
          WHEN views < 350 AND views >= 100 THEN 2
          ELSE 3
       END AS category
FROM stackoverflow.users
WHERE location LIKE '%Canada%' AND views > 0
ORDER BY views DESC),

t_2 AS (
SELECT user_id,
       views_cnt,
       category,
       MAX(views_cnt) OVER (PARTITION BY category ORDER BY views_cnt DESC) AS max_views
FROM t_1)

SELECT user_id,
       category,
       views_cnt
FROM t_2
WHERE views_cnt =  max_views
ORDER BY views_cnt DESC, user_id; 
'''

"\nWITH t_1 AS (\nSELECT id AS user_id,\n       views AS views_cnt,\n       CASE\n          WHEN views >= 350 THEN 1\n          WHEN views < 350 AND views >= 100 THEN 2\n          ELSE 3\n       END AS category\nFROM stackoverflow.users\nWHERE location LIKE '%Canada%' AND views > 0\nORDER BY views DESC),\n\nt_2 AS (\nSELECT user_id,\n       views_cnt,\n       category,\n       MAX(views_cnt) OVER (PARTITION BY category ORDER BY views_cnt DESC) AS max_views\nFROM t_1)\n\nSELECT user_id,\n       category,\n       views_cnt\nFROM t_2\nWHERE views_cnt =  max_views\nORDER BY views_cnt DESC, user_id; \n"

## Задача 12

Посчитайте ежедневный прирост новых пользователей в ноябре 2008 года. Сформируйте таблицу с полями:

* номер дня;
* число пользователей, зарегистрированных в этот день;
* сумму пользователей с накоплением.

In [28]:
'''
WITH t_1 AS
(
SELECT CAST(creation_date AS date) AS days,
       COUNT(id) AS users_cnt
FROM stackoverflow.users
GROUP BY CAST(creation_date AS date)
ORDER BY CAST(creation_date AS date)
)

SELECT RANK() OVER (ORDER BY days),
       users_cnt,
       SUM(users_cnt) OVER (ORDER BY days)::int AS cum
FROM t_1 
WHERE CAST(days AS date) BETWEEN '2008-11-01' AND '2008-11-30'; 
'''

"\nWITH t_1 AS\n(\nSELECT CAST(creation_date AS date) AS days,\n       COUNT(id) AS users_cnt\nFROM stackoverflow.users\nGROUP BY CAST(creation_date AS date)\nORDER BY CAST(creation_date AS date)\n)\n\nSELECT RANK() OVER (ORDER BY days),\n       users_cnt,\n       SUM(users_cnt) OVER (ORDER BY days)::int AS cum\nFROM t_1 \nWHERE CAST(days AS date) BETWEEN '2008-11-01' AND '2008-11-30'; \n"

## Задача 13

Для каждого пользователя, который написал хотя бы один пост, найдите интервал между регистрацией и временем создания первого поста. Отобразите:

* идентификатор пользователя;
* разницу во времени между регистрацией и первым постом.

In [29]:
'''
WITH t_1 AS 
(
SELECT s_p.user_id, 
       s_p.creation_date,
       RANK() OVER (PARTITION BY s_p.user_id ORDER BY s_p.creation_date) AS first_pub
FROM stackoverflow.posts AS s_p
ORDER BY s_p.user_id
)

SELECT t_1.user_id,
       t_1.creation_date - s_u.creation_date AS delta
FROM t_1
JOIN stackoverflow.users AS s_u ON t_1.user_id = s_u.id
WHERE first_pub = 1; 
'''

'\nWITH t_1 AS \n(\nSELECT s_p.user_id, \n       s_p.creation_date,\n       RANK() OVER (PARTITION BY s_p.user_id ORDER BY s_p.creation_date) AS first_pub\nFROM stackoverflow.posts AS s_p\nORDER BY s_p.user_id\n)\n\nSELECT t_1.user_id,\n       t_1.creation_date - s_u.creation_date AS delta\nFROM t_1\nJOIN stackoverflow.users AS s_u ON t_1.user_id = s_u.id\nWHERE first_pub = 1; \n'

---
## **`ВТОРАЯ ЧАСТЬ`**

## Задача 1

Выведите общую сумму просмотров у постов, опубликованных в каждый месяц 2008 года. Если данных за какой-либо месяц в базе нет, такой месяц можно пропустить. Результат отсортируйте по убыванию общего количества просмотров.

In [1]:
'''
SELECT CAST(DATE_TRUNC('month', creation_date) AS date) AS dt,
       SUM(views_count) AS sum_views
FROM stackoverflow.posts AS s_p
WHERE CAST(creation_date AS date) BETWEEN '2008-01-10' AND '2008-12-31'
GROUP BY dt
ORDER BY sum_views DESC;
'''

"\nSELECT CAST(DATE_TRUNC('month', creation_date) AS date) AS dt,\n       SUM(views_count) AS sum_views\nFROM stackoverflow.posts AS s_p\nWHERE CAST(creation_date AS date) BETWEEN '2008-01-10' AND '2008-12-31'\nGROUP BY dt\nORDER BY sum_views DESC;\n"

## Задача 2

Выведите имена самых активных пользователей, которые в первый месяц после регистрации (включая день регистрации) дали больше 100 ответов. Вопросы, которые задавали пользователи, не учитывайте. Для каждого имени пользователя выведите количество уникальных значений user_id. Отсортируйте результат по полю с именами в лексикографическом порядке.

In [2]:
'''
SELECT s_u.display_name,
       COUNT(DISTINCT s_p.user_id)
FROM stackoverflow.posts AS s_p
JOIN stackoverflow.users AS s_u ON s_p.user_id = s_u.id
JOIN stackoverflow.post_types AS s_pt ON s_pt.id = s_p.post_type_id
WHERE CAST(s_p.creation_date AS date) BETWEEN CAST(s_u.creation_date AS date) AND (CAST(s_u.creation_date AS date) + INTERVAL '1 month') 
  AND s_pt.type LIKE 'Answer'
GROUP BY s_u.display_name
HAVING COUNT(s_p.id) > 100
ORDER BY s_u.display_name;
'''

"\nSELECT s_u.display_name,\n       COUNT(DISTINCT s_p.user_id)\nFROM stackoverflow.posts AS s_p\nJOIN stackoverflow.users AS s_u ON s_p.user_id = s_u.id\nJOIN stackoverflow.post_types AS s_pt ON s_pt.id = s_p.post_type_id\nWHERE CAST(s_p.creation_date AS date) BETWEEN CAST(s_u.creation_date AS date) AND (CAST(s_u.creation_date AS date) + INTERVAL '1 month') \n  AND s_pt.type LIKE 'Answer'\nGROUP BY s_u.display_name\nHAVING COUNT(s_p.id) > 100\nORDER BY s_u.display_name;\n"

## Задача 3

Выведите количество постов за 2008 год по месяцам. Отберите посты от пользователей, которые зарегистрировались в сентябре 2008 года и сделали хотя бы один пост в декабре того же года. Отсортируйте таблицу по значению месяца по убыванию.

In [3]:
'''
WITH t_1 AS (
SELECT s_u.id
FROM stackoverflow.posts AS s_p
JOIN stackoverflow.users AS s_u ON s_p.user_id = s_u.id
WHERE CAST(s_u.creation_date AS date) BETWEEN '2008-09-01' AND '2008-09-30'
  AND CAST(s_p.creation_date AS date) BETWEEN '2008-12-01' AND '2008-12-31'
GROUP BY s_u.id)

SELECT CAST(DATE_TRUNC('month', s_p.creation_date) AS date) AS month,
       COUNT(s_p.id)
FROM stackoverflow.posts AS s_p
WHERE s_p.user_id IN (SELECT *
                      FROM t_1)
  AND CAST(DATE_TRUNC('year', s_p.creation_date) AS date) = '2008-01-01'
GROUP BY CAST(DATE_TRUNC('month', s_p.creation_date) AS date)
ORDER BY CAST(DATE_TRUNC('month', s_p.creation_date) AS date) DESC;
'''

"\nWITH t_1 AS (\nSELECT s_u.id\nFROM stackoverflow.posts AS s_p\nJOIN stackoverflow.users AS s_u ON s_p.user_id = s_u.id\nWHERE CAST(s_u.creation_date AS date) BETWEEN '2008-09-01' AND '2008-09-30'\n  AND CAST(s_p.creation_date AS date) BETWEEN '2008-12-01' AND '2008-12-31'\nGROUP BY s_u.id)\n\nSELECT CAST(DATE_TRUNC('month', s_p.creation_date) AS date) AS month,\n       COUNT(s_p.id)\nFROM stackoverflow.posts AS s_p\nWHERE s_p.user_id IN (SELECT *\n                      FROM t_1)\n  AND CAST(DATE_TRUNC('year', s_p.creation_date) AS date) = '2008-01-01'\nGROUP BY CAST(DATE_TRUNC('month', s_p.creation_date) AS date)\nORDER BY CAST(DATE_TRUNC('month', s_p.creation_date) AS date) DESC;\n"

## Задача 4

Используя данные о постах, выведите несколько полей:

* идентификатор пользователя, который написал пост;
* дата создания поста;
* количество просмотров у текущего поста;
* сумма просмотров постов автора с накоплением.

Данные в таблице должны быть отсортированы по возрастанию идентификаторов пользователей, а данные об одном и том же пользователе — по возрастанию даты создания поста.

In [4]:
'''
SELECT s_p.user_id, 
       s_p.creation_date, 
       s_p.views_count,
       SUM (s_p.views_count) OVER (PARTITION BY s_p.user_id ORDER BY s_p.creation_date) AS cumulative_count
FROM stackoverflow.posts AS s_p
ORDER BY s_p.user_id, s_p.creation_date;
'''

'\nSELECT s_p.user_id, \n       s_p.creation_date, \n       s_p.views_count,\n       SUM (s_p.views_count) OVER (PARTITION BY s_p.user_id ORDER BY s_p.creation_date) AS cumulative_count\nFROM stackoverflow.posts AS s_p\nORDER BY s_p.user_id, s_p.creation_date;\n'

## Задача 5

Сколько в среднем дней в период с 1 по 7 декабря 2008 года включительно пользователи взаимодействовали с платформой? Для каждого пользователя отберите дни, в которые он или она опубликовали хотя бы один пост. Нужно получить одно целое число — не забудьте округлить результат.

In [5]:
'''
WITH temp AS
(
SELECT user_id,
       COUNT(DISTINCT DATE_TRUNC('day', creation_date)::date)
FROM stackoverflow.posts
WHERE creation_date::date BETWEEN '2008-12-01' AND '2008-12-07'
GROUP BY user_id
)
SELECT ROUND(AVG(count))::int AS result
FROM temp;
'''

"\nWITH temp AS\n(\nSELECT user_id,\n       COUNT(DISTINCT DATE_TRUNC('day', creation_date)::date)\nFROM stackoverflow.posts\nWHERE creation_date::date BETWEEN '2008-12-01' AND '2008-12-07'\nGROUP BY user_id\n)\nSELECT ROUND(AVG(count))::int AS result\nFROM temp;\n"

## Задача 6

На сколько процентов менялось количество постов ежемесячно с 1 сентября по 31 декабря 2008 года? Отобразите таблицу со следующими полями:

* Номер месяца.
* Количество постов за месяц.
* Процент, который показывает, насколько изменилось количество постов в текущем месяце по сравнению с предыдущим.

Если постов стало меньше, значение процента должно быть отрицательным, если больше — положительным. Округлите значение процента до двух знаков после запятой.

Напомним, что при делении одного целого числа на другое в PostgreSQL в результате получится целое число, округлённое до ближайшего целого вниз. Чтобы этого избежать, переведите делимое в тип numeric.

In [6]:
'''
WITH temp AS
(
SELECT EXTRACT(MONTH FROM creation_date)::int AS creation_month,
       COUNT(id) AS posts_count
FROM stackoverflow.posts
WHERE EXTRACT(MONTH FROM creation_date)::int BETWEEN 9 AND 12
GROUP BY creation_month
)
SELECT *,
       ROUND((posts_count::numeric/LAG(posts_count) OVER()-1)*100, 2)
FROM temp;
'''

'\nWITH temp AS\n(\nSELECT EXTRACT(MONTH FROM creation_date)::int AS creation_month,\n       COUNT(id) AS posts_count\nFROM stackoverflow.posts\nWHERE EXTRACT(MONTH FROM creation_date)::int BETWEEN 9 AND 12\nGROUP BY creation_month\n)\nSELECT *,\n       ROUND((posts_count::numeric/LAG(posts_count) OVER()-1)*100, 2)\nFROM temp;\n'

## Задача 7

Найдите пользователя, который опубликовал больше всего постов за всё время с момента регистрации. Выведите данные его активности за октябрь 2008 года в таком виде:

* номер недели;
* дата и время последнего поста, опубликованного на этой неделе.

In [7]:
'''
WITH active_user AS
(
SELECT user_id,
       COUNT(id)
FROM stackoverflow.posts
GROUP BY user_id
ORDER BY COUNT(id) DESC
LIMIT 1
)
SELECT EXTRACT(WEEK FROM p.creation_date)::int AS week_creation,
       MAX(p.creation_date) AS creation_date
FROM active_user AS au
JOIN stackoverflow.posts AS p
ON au.user_id=p.user_id
WHERE DATE_TRUNC('month', p.creation_date)::date = '2008-10-01'
GROUP BY week_creation;
'''

"\nWITH active_user AS\n(\nSELECT user_id,\n       COUNT(id)\nFROM stackoverflow.posts\nGROUP BY user_id\nORDER BY COUNT(id) DESC\nLIMIT 1\n)\nSELECT EXTRACT(WEEK FROM p.creation_date)::int AS week_creation,\n       MAX(p.creation_date) AS creation_date\nFROM active_user AS au\nJOIN stackoverflow.posts AS p\nON au.user_id=p.user_id\nWHERE DATE_TRUNC('month', p.creation_date)::date = '2008-10-01'\nGROUP BY week_creation;\n"