# Исследование базы данных сервиса StackOverflow
## Цель и ход исследования

Цель исследования: изучить данные StackOverflow - сервиса вопросов и ответов о программировании.

Ход исследования: Необходимо подключиться к базе данных, после чего можно будет отвечать на поставленные вопросы с помощью raw SQL-запросов.

#### Подключение к БД

In [1]:
import sqlalchemy
import pandas as pd
from sqlalchemy import create_engine

engine = create_engine('postgresql+psycopg2://praktikum_student:Sdf4$2;d-d30pp@rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net:6432/data-analyst-advanced-sql')
#создаем подключение
engine.connect();

#### 1. Найдите количество вопросов, которые набрали больше 300 очков или как минимум 100 раз были добавлены в «Закладки».

In [2]:
query = """
SELECT COUNT(a.id)
FROM stackoverflow.posts AS a
LEFT JOIN stackoverflow.post_types AS b ON a.post_type_id=b.id
WHERE b.type = 'Question' AND (a.score > 300 OR a.favorites_count >= 100);
"""
task_1 = pd.read_sql(query, engine)
task_1

Unnamed: 0,count
0,1355


#### 2. Сколько в среднем в день задавали вопросов с 1 по 18 ноября 2008 включительно? 
Результат округлите до целого числа.

In [3]:
query = """
SELECT ROUND(AVG(num),0) AS average_qty
FROM (SELECT DATE_TRUNC('day', a.creation_date)::date AS dt,
             COUNT(a.id) AS num
      FROM stackoverflow.posts AS a
      LEFT JOIN stackoverflow.post_types AS b ON a.post_type_id=b.id
      WHERE b.type = 'Question' AND DATE_TRUNC('day', a.creation_date)::date BETWEEN '2008-11-01' AND '2008-11-18'
      GROUP BY DATE_TRUNC('day', a.creation_date)::date) AS data;
"""
task_2 = pd.read_sql(query, engine)
task_2

Unnamed: 0,average_qty
0,383.0


#### 3. Сколько пользователей получили значки сразу в день регистрации?
Выведите количество уникальных пользователей.

In [4]:
query = """
SELECT COUNT(DISTINCT(a.id))
FROM stackoverflow.users AS a
LEFT JOIN stackoverflow.badges AS b ON a.id=b.user_id
WHERE DATE_TRUNC('day', a.creation_date) :: date = DATE_TRUNC('day', b.creation_date) :: date;
"""
task_3 = pd.read_sql(query, engine)
task_3

Unnamed: 0,count
0,7047


#### 4. Сколько уникальных постов пользователя с именем Joel Coehoorn получили хотя бы один голос?

In [5]:
query = """
SELECT COUNT(DISTINCT a.id)
FROM stackoverflow.posts AS a
JOIN stackoverflow.votes AS b ON a.id=b.post_id
JOIN stackoverflow.users AS c ON a.user_id=c.id
WHERE c.display_name = 'Joel Coehoorn';
"""
task_4 = pd.read_sql(query, engine)
task_4

Unnamed: 0,count
0,12


#### 5. Выгрузите все поля таблицы vote_types. Добавьте к таблице поле rank, в которое войдут номера записей в обратном порядке. 
Таблица должна быть отсортирована по полю id.

In [6]:
query = """
SELECT *,
       ROW_NUMBER() OVER (ORDER BY id DESC) AS rank
FROM stackoverflow.vote_types
ORDER BY id;
"""
task_5 = pd.read_sql(query, engine)
task_5

Unnamed: 0,id,name,rank
0,1,AcceptedByOriginator,15
1,2,UpMod,14
2,3,DownMod,13
3,4,Offensive,12
4,5,Favorite,11
5,6,Close,10
6,7,Reopen,9
7,8,BountyStart,8
8,9,BountyClose,7
9,10,Deletion,6


#### 6. Отберите 10 пользователей, которые поставили больше всего голосов типа Close. 
Отобразите таблицу из двух полей: идентификатором пользователя и количеством голосов. Отсортируйте данные сначала по убыванию количества голосов, потом по убыванию значения идентификатора пользователя.

In [7]:
query = """
SELECT a.user_id,
       COUNT(b.id) AS qty
FROM stackoverflow.votes AS a
LEFT JOIN stackoverflow.vote_types AS b ON a.vote_type_id=b.id
WHERE b.name = 'Close'
GROUP BY a.user_id
ORDER BY qty DESC, a.user_id DESC
LIMIT 10;
"""
task_6 = pd.read_sql(query, engine)
task_6

Unnamed: 0,user_id,qty
0,20646,36
1,14728,36
2,27163,29
3,41158,24
4,24820,23
5,9345,23
6,3241,23
7,44330,20
8,38426,19
9,19074,19


#### 7. Отберите 10 пользователей по количеству значков, полученных в период с 15 ноября по 15 декабря 2008 года включительно. 
Отобразите несколько полей:
* идентификатор пользователя;
* число значков;
* место в рейтинге - чем больше значков, тем выше рейтинг.

Пользователямелям, которые набрали одинаковое количество значков, присвойте одно и то же место в рейтинге.
Отсортируйте записи по количеству значков по убыванию, а затем по возрастанию значения идентификатора пользователя.


In [8]:
query = """
SELECT user_id,
       COUNT(id) AS qty,
       DENSE_RANK() OVER (ORDER BY COUNT(id) DESC) AS rank
FROM stackoverflow.badges
WHERE DATE_TRUNC('day', creation_date)::date BETWEEN '2008-11-15' AND '2008-12-15'
GROUP BY user_id
ORDER BY qty DESC, user_id
LIMIT 10;
"""
task_7 = pd.read_sql(query, engine)
task_7

Unnamed: 0,user_id,qty,rank
0,22656,149,1
1,34509,45,2
2,1288,40,3
3,5190,31,4
4,13913,30,5
5,893,28,6
6,10661,28,6
7,33213,25,7
8,12950,23,8
9,25222,20,9


#### 8. Сколько в среднем очков получает пост каждого пользователя?
Сформируйте таблицу из следующих полей:
* заголовок поста;
* идентификатор пользователя;
* число очков поста;
* среднее число очков пользователя за пост, округленное до целого числа.


Не учитывайте посты без заголовка, а также те, что набрали ноль очков.

In [9]:
query = """
SELECT title,
       user_id,
       score,
       ROUND(AVG(score) OVER (PARTITION BY user_id) ,0) AS avg
FROM stackoverflow.posts
WHERE score <> 0 AND title IS NOT NULL;
"""
task_8 = pd.read_sql(query, engine)
task_8

Unnamed: 0,title,user_id,score,avg
0,Diagnosing Deadlocks in SQL Server 2005,1,82,573.0
1,How do I calculate someone's age in C#?,1,1743,573.0
2,Why doesn't IE7 copy <pre><code> blocks to the...,1,37,573.0
3,Calculate relative time in C#,1,1348,573.0
4,Wrapping StopWatch timing with a delegate or l...,1,92,573.0
...,...,...,...,...
47349,Multi-lingual projects in Visual Studio,3742716,1,1.0
47350,Change datatype when importing Excel file into...,3930756,5,5.0
47351,How to host a Silverlight app in a Sharepoint ...,4020932,8,8.0
47352,Getting counts for a paged SQL search stored p...,5696608,2,2.0


#### 9. Отобразите заголовки постов, которые были написаны пользователями, получившими более 1000 значков. 
Посты без заголовков не должны попасть в список.

In [10]:
query = """
SELECT a.title
FROM stackoverflow.posts AS a
LEFT JOIN stackoverflow.users AS b ON a.user_id=b.id
LEFT JOIN stackoverflow.badges AS c ON b.id=c.user_id
GROUP BY a.title
HAVING COUNT(c.id) > 1000 AND a.title IS NOT NULL;
"""
task_9 = pd.read_sql(query, engine)
task_9

Unnamed: 0,title
0,Project management to go with GitHub
1,What are the correct version numbers for C#?
2,What's the hardest or most misunderstood aspec...
3,What's the strangest corner case you've seen i...


#### 10. Напишите запрос, который выгрузит данные о пользователях из Канады. 
Разделите пользователей на три группы в зависимости от количества просмотров их профилей:
* пользователи с числом просмотров больше либо равным 350 присвойте группу 1;
* пользователи с числом просмотров меньше 350, но больше либо равно 100 - группу 2;
* пользователи с числом просмотров меньше 100 - группу 2.

Отобразите в итоговой таблице идентификатор пользователя, количество просмотров профиля и группу. Пользователи с количеством просмотров меньше либо равным нулю не должны войти в итоговую таблицу.

In [11]:
query = """
SELECT id,
       views,
       CASE
           WHEN views >= 350 THEN 1
           WHEN views >= 100 THEN 2
           WHEN views < 100 THEN 3
       END AS gp
FROM stackoverflow.users
WHERE views != 0 AND location LIKE 'Canada'
ORDER BY views DESC;
"""
task_10 = pd.read_sql(query, engine)
task_10

Unnamed: 0,id,views,gp
0,813,8268,1
1,26210,7695,1
2,14731,4242,1
3,33686,3697,1
4,8701,2811,1
...,...,...,...
147,266220,13,3
148,20473,12,3
149,186405,12,3
150,460958,7,3


#### 11. Дополните предыдущий запрос: отобразите лидеров каждой группы — пользователей, которые набрали максимальное число просмотров в своей группе.
Выведите поля с идентификатором пользователя, группой и количеством просмотров. Отсортируйте таблицу по убыванию просмотров, а затем по возрастанию значения идентификатора.

In [12]:
query = """
WITH a AS (SELECT id,
                  views,
                  CASE
                       WHEN views >= 350 THEN 1
                       WHEN views >= 100 THEN 2
                       WHEN views < 100 THEN 3
                  END AS gp
           FROM stackoverflow.users
           WHERE views != 0 AND location LIKE 'Canada'),
     b AS (SELECT id,
                  gp,
                  views,
                  MAX(views) OVER (PARTITION BY gp) AS rank
           FROM a)

SELECT id,
       gp,
       views
FROM b
WHERE views = rank
ORDER BY views DESC, id;
"""
task_11 = pd.read_sql(query, engine)
task_11

Unnamed: 0,id,gp,views
0,813,1,8268
1,1365,2,335
2,9056,3,98


#### 12. Посчитайте ежедневный прирост новых пользователей в ноябре 2008 года. 
Сформируйте таблицу с полями:
* номер дня;
* число пользователей, зарегистрированных в этот день;
* сумму пользователей с накоплением.м.


In [13]:
query = """
WITH a AS (SELECT DISTINCT(EXTRACT(day FROM creation_date)) AS dt,
                  COUNT(id) OVER (PARTITION BY EXTRACT(day FROM creation_date)) AS count
           FROM stackoverflow.users
           WHERE EXTRACT(month FROM creation_date) = 11 AND EXTRACT(year FROM creation_date) = 2008
           ORDER BY dt)

SELECT *,
       SUM(count) OVER (ORDER BY dt)
FROM a;
"""
task_12 = pd.read_sql(query, engine)
task_12

Unnamed: 0,dt,count,sum
0,1.0,34,34.0
1,2.0,48,82.0
2,3.0,75,157.0
3,4.0,192,349.0
4,5.0,122,471.0
5,6.0,132,603.0
6,7.0,104,707.0
7,8.0,42,749.0
8,9.0,45,794.0
9,10.0,93,887.0


#### 13. Для каждого пользователя, который написал хотя бы один пост, найдите интервал между регистрацией и временем создания первого поста. 
Отобразите:
* идентификатор пользователя;
* разницу во времени между регистрацией и первым постом.



In [14]:
query = """
WITH a AS (SELECT user_id, 
                  creation_date,
                  RANK() OVER (PARTITION BY user_id ORDER BY creation_date) AS pub
           FROM stackoverflow.posts 
           ORDER BY user_id)

SELECT user_id,
       a.creation_date - b.creation_date AS delta
FROM a
LEFT JOIN stackoverflow.users AS b ON a.user_id = b.id
WHERE pub = 1;
"""
task_13 = pd.read_sql(query, engine)
task_13

Unnamed: 0,user_id,delta
0,1,0 days 09:18:29
1,2,0 days 14:37:03
2,3,3 days 16:17:09
3,4,15 days 05:44:22
4,5,1 days 14:57:51
...,...,...
18844,3644960,0 days 00:00:00
18845,3742716,66 days 21:15:48
18846,3930756,8 days 02:11:55
18847,4020932,47 days 18:30:34


#### 14. Выведите общую сумму просмотров у постов, опубликованных в каждый месяц 2008 года. 
Если данных за какой-либо месяц в базе нет, такой месяц можно пропустить. Результат отсортируйте по убыванию общего количества просмотров.

In [15]:
query = """
SELECT DISTINCT (DATE_TRUNC('month', creation_date) :: date) AS dt,
       SUM(views_count) AS sum
FROM stackoverflow.posts
WHERE EXTRACT(year FROM creation_date) = 2008
GROUP BY dt
ORDER BY sum DESC;
"""
task_14 = pd.read_sql(query, engine)
task_14

Unnamed: 0,dt,sum
0,2008-09-01,452928568
1,2008-10-01,365400138
2,2008-11-01,221759651
3,2008-12-01,197792841
4,2008-08-01,131367083
5,2008-07-01,669895


#### 15. Выведите имена самых активных пользователей, которые в первый месяц после регистрации (включая день регистрации) дали больше 100 ответов. 
Вопросы, которые задавали пользователи, не учитывайте. Для каждого имени пользователя выведите количество уникальных значений user_id. Отсортируйте результат по полю с именами в лексикографическом порядке.


In [16]:
query = """
SELECT c.display_name,
       COUNT(DISTINCT user_id)
FROM stackoverflow.posts a
LEFT JOIN stackoverflow.post_types b ON a.post_type_id = b.id
LEFT JOIN stackoverflow.users c ON c.id = a.user_id
WHERE DATE_TRUNC('day', a.creation_date) >= DATE_TRUNC('day', c.creation_date) 
      AND DATE_TRUNC('day', a.creation_date) <= DATE_TRUNC('day', c.creation_date) + INTERVAL '1 month' AND b.type = 'Answer'
GROUP BY c.display_name
HAVING COUNT(*) > 100
ORDER BY display_name;
"""
task_15 = pd.read_sql(query, engine)
task_15

Unnamed: 0,display_name,count
0,1800 INFORMATION,1
1,Adam Bellaire,1
2,Adam Davis,1
3,Adam Liss,1
4,Alan,8
...,...,...
74,lomaxx,1
75,mattlant,1
76,paxdiablo,1
77,tvanfosson,1


#### 16. Выведите количество постов за 2008 год по месяцам. 
Отберите посты от пользователей, которые зарегистрировались в сентябре 2008 года и сделали хотя бы один пост в декабре того же года. Отсортируйте таблицу по значению месяца по убыванию.

In [17]:
query = """
WITH a AS (SELECT c.id
               FROM stackoverflow.posts AS b
               LEFT JOIN stackoverflow.users AS c ON b.user_id=c.id
               WHERE (c.creation_date::date BETWEEN '2008-09-01' AND '2008-09-30') AND (b.creation_date::date BETWEEN '2008-12-01' AND '2008-12-31')
               GROUP BY c.id)

SELECT DATE_TRUNC('month', d.creation_date)::date AS month,
       COUNT(d.id)
FROM stackoverflow.posts AS d
WHERE d.user_id IN (SELECT *
                    FROM a)
      AND DATE_TRUNC('year', d.creation_date)::date = '2008-01-01'
GROUP BY DATE_TRUNC('month', d.creation_date)::date
ORDER BY DATE_TRUNC('month', d.creation_date)::date DESC;
"""
task_16 = pd.read_sql(query, engine)
task_16

Unnamed: 0,month,count
0,2008-12-01,17641
1,2008-11-01,18294
2,2008-10-01,27171
3,2008-09-01,24870
4,2008-08-01,32


#### 17. Используя данные о постах, выведите несколько полей:
* идентификатор пользователя, который написал пост;
* дата создания поста;
* количество просмотров у текущего поста;
* сумма просмотров постов автора с накоплением.


Данные в таблице должны быть отсортированы по возрастанию идентификаторов пользователей, а данные об одном и том же пользователе — по возрастанию даты создания поста.

In [18]:
query = """
SELECT user_id, 
       creation_date, 
       views_count,
       SUM(views_count) OVER (PARTITION BY user_id ORDER BY creation_date)
FROM stackoverflow.posts
ORDER BY user_id, creation_date;
"""
task_17 = pd.read_sql(query, engine)
task_17

Unnamed: 0,user_id,creation_date,views_count,sum
0,1,2008-07-31 23:41:00,480476,480476
1,1,2008-07-31 23:55:38,136033,616509
2,1,2008-07-31 23:56:41,0,616509
3,1,2008-08-04 02:45:08,0,616509
4,1,2008-08-04 04:31:03,0,616509
...,...,...,...,...
243791,5696608,2008-12-23 16:00:37,0,2804
243792,5696608,2008-12-23 17:35:09,0,2804
243793,5696608,2008-12-24 01:02:48,0,2804
243794,5696608,2008-12-30 14:34:45,0,2804


#### 18. Сколько в среднем дней в период с 1 по 7 декабря 2008 года включительно пользователи взаимодействовали с платформой? 
Для каждого пользователя отберите дни, в которые он или она опубликовали хотя бы один пост. Нужно получить одно целое число — не забудьте округлить результат.

In [19]:
query = """       
SELECT ROUND(AVG(count))::int AS avg
FROM (SELECT user_id,
             COUNT(DISTINCT DATE_TRUNC('day', creation_date)::date)
      FROM stackoverflow.posts
      WHERE creation_date::date BETWEEN '2008-12-01' AND '2008-12-07'
      GROUP BY user_id) AS a;
"""
task_18 = pd.read_sql(query, engine)
task_18

Unnamed: 0,avg
0,2


#### 19. На сколько процентов менялось количество постов ежемесячно с 1 сентября по 31 декабря 2008 года? 
Отобразите таблицу со следующими полями:
* номер месяца;
* количество постов за месяц;
* процент, показывающий насколько изменилось количество постов в текущем месяце по сравнению с предыдущим.

Если постов стало меньше, значение процента должно быть отрицательным, если больше - положительным. Округлите значение процента до двух знаков после запятой.

In [20]:
query = """                      
SELECT *,
       ROUND((count::numeric/LAG(count) OVER()-1)*100, 2) AS share
FROM (SELECT EXTRACT(month FROM creation_date)::int AS month,
             COUNT(id)
      FROM stackoverflow.posts
      WHERE EXTRACT(month FROM creation_date)::int BETWEEN 9 AND 12
      GROUP BY month) AS a;
"""
task_19 = pd.read_sql(query, engine)
task_19

Unnamed: 0,month,count,share
0,9,70371,
1,10,63102,-10.33
2,11,46975,-25.56
3,12,44592,-5.07


#### 20. Найдите пользователя, который опубликовал больше всего постов за всё время с момента регистрации. 
Выведите данные его активности за октябрь 2008 года в таком виде:
* номер недели;
* дата и время последнего поста, опубликованного на этой неделе.


In [21]:
query = """
SELECT EXTRACT(week FROM b.creation_date)::int AS week,
       MAX(b.creation_date)
FROM (SELECT user_id,
             COUNT(id)
      FROM stackoverflow.posts
      GROUP BY user_id
      ORDER BY COUNT(id) DESC
      LIMIT 1) AS a
LEFT JOIN stackoverflow.posts AS b ON a.user_id=b.user_id
WHERE DATE_TRUNC('month', b.creation_date)::date = '2008-10-01'
GROUP BY week;
"""
task_20 = pd.read_sql(query, engine)
task_20

Unnamed: 0,week,max
0,40,2008-10-05 09:00:58
1,41,2008-10-12 21:22:23
2,42,2008-10-19 06:49:30
3,43,2008-10-26 21:44:36
4,44,2008-10-31 22:16:01


## Вывод
Проанализировав данные сервиса StackOverflow, можно подчеркнуть следующие моменты:
* в ноябре в день в среднем задавалось около 400 вопросов;
* около 7 тыс. пользователей получили значки в день регистрации;
* за ноябрь к сервису присоединилось 2408 новых пользователей;
* наибольшее число просмотров было зафиксировано в сентябре и составило около 450 млн просмотров;
* больше всего постов было опубликовано в октябре - 27 тыс. ед. .