## > Как подключиться к базе данных
### > Как подключиться к PostgreSQL через psycopg2
1. Импортируем библиотеку:
```python
# pip install psycopg2 если библиотека не установлена
import psycopg2
```

2. Далее используем данные для входа
```python
database="startml",
user="robot-startml-ro",
password="pheiph0hahj1Vaif",
host="postgres.lab.karpov.courses",
port=6432
```

 В конце работы необходимо закрывать курсор и соединение с БД:
```python
cursor.close() 
connection.close()
```

### > Как подключиться к PostgreSQL через pandas
Для загрузки таблицы используется функция `pd.read_sql`.

```python
import pandas as pd

df = pd.read_sql(
    """SELECT * FROM "feed_action" LIMIT 10 """,
    con="postgresql://robot-startml-ro:pheiph0hahj1Vaif@"
        "postgres.lab.karpov.courses:6432/startml"
)

df.head()
```

Обратите внимание, что сам запрос выделяется тройными кавычками (""") — этот знак в Python для многострочного ввода. Таким же образом выделяются многострочные комментарии в коде.

В следующих заданиях мы будем работать с базой данных, в которой имеется три таблицы:

1. Таблица с данными о пользователях (`user`):

`id`- уникальный идентификатор пользователя (primary key)

`gender` - пол

`age` - возраст

`country` - страна

`city` - город

`exp_group` - экспериментальная группа

`os` - операционная система

`source` - источник трафика

2. Таблица с данными о постах (post):

`id` - уникальный идентификатор поста (primary key)

`text` - текст поста

`topic` - тема поста

3. Таблица с данными о действиях пользователей (feed_action):

`user_id` (——>) `user (id)` - идентификатор пользователя     

`post_id` (——>) `post (id)` - идентификатор поста     

`action` - совершенное в сети действие     

`time`- время действия



In [1]:
import pandas as pd

In [2]:
connection_string = "postgresql://robot-startml-ro:pheiph0hahj1Vaif@postgres.lab.karpov.courses:6432/startml"

## SELECT (1/2)
Сделайте запрос на все колонки из таблицы `user`. Для этого может понадобиться взять user в кавычки, вот так: `"user"` - чтобы PostgreSQL не спутал ее со своей встроенной таблицей `user`, где он ведет учет всех пользователей.

Напишите через пробел, с какого id начинаются записи и какой город у самого первого ID (на английском)

In [3]:
pd.read_sql(
    """SELECT * FROM "feed_action" LIMIT 10""",
    con=connection_string
).head()

Unnamed: 0,user_id,post_id,action,time
0,82337,5601,view,2022-01-04 11:11:00
1,36104,5559,view,2022-01-04 11:11:00
2,51920,5588,view,2022-01-04 11:11:00
3,81206,5446,like,2022-01-04 11:11:00
4,65490,5580,view,2022-01-04 11:11:00


In [3]:
pd.read_sql(
    """SELECT * FROM "user" LIMIT 10""",
    con=connection_string
).head()

Unnamed: 0,id,gender,age,country,city,exp_group,os,source
0,200,1,34,Russia,Degtyarsk,3,Android,ads
1,201,0,37,Russia,Abakan,0,Android,ads
2,202,1,17,Russia,Smolensk,4,Android,ads
3,203,0,18,Russia,Moscow,1,iOS,ads
4,204,0,36,Russia,Anzhero-Sudzhensk,3,Android,ads


## SELECT (2/2)
Отберите уникальные значения тем (`topic`) в таблице постов (`post`).

In [4]:
pd.read_sql(
    """SELECT COUNT(DISTINCT(topic)), MAX(topic) FROM "post" """,
    con=connection_string
).head()

Unnamed: 0,count,max
0,7,tech


## Фильтры (1/2)
Отберите пользователей старше 30 с устройством на iOS. Каков `ID` и `город` записи с минимальным ID (он идет первым в таблице)?

In [5]:
pd.read_sql(
    """
    SELECT * 
    FROM "user" as u 
    WHERE u.age > 30 AND u.os = 'iOS';
    
    """,
    con=connection_string
).head()

Unnamed: 0,id,gender,age,country,city,exp_group,os,source
0,212,1,47,Russia,Podolsk,0,iOS,ads
1,222,0,45,Russia,Ulyanovsk,0,iOS,ads
2,224,1,32,Russia,Yekaterinburg,2,iOS,ads
3,226,1,31,Russia,Moscow,4,iOS,ads
4,243,1,38,Kazakhstan,Ekibastuz,1,iOS,ads


## Фильтры (2/2)
Отберите пользователей, которые не из России и при этом либо их экспериментальная группа не `0` и не `3` или их город – Минск.

In [6]:
pd.read_sql(
    """
    SELECT * 
    FROM "user" as u 
    WHERE u.country NOT IN ('Russia') AND u.exp_group NOT IN (0, 3) OR u.city = 'Minsk' ;
    """,
    con=connection_string
).head()

Unnamed: 0,id,gender,age,country,city,exp_group,os,source
0,211,1,22,Belarus,Minsk,0,iOS,ads
1,213,1,22,Ukraine,Kamianske,2,iOS,ads
2,216,0,38,Ukraine,Lviv,1,Android,ads
3,218,1,25,Belarus,Minsk,2,iOS,ads
4,228,0,17,Azerbaijan,Baku,2,iOS,ads


## Группировка (1/6)
Подсчитайте средний возраст пользователей в разрезе страны. В ответ напишите средний возраст пользователей из Кипра. Ответ округлите до двух знаков после точки.

In [7]:
pd.read_sql(
    """
    SELECT country, ROUND(AVG(age), 2)
    FROM "user"
    GROUP BY country;
    """,
    con=connection_string
).head()

Unnamed: 0,country,round
0,Azerbaijan,26.78
1,Belarus,27.28
2,Cyprus,28.07
3,Estonia,28.15
4,Finland,27.13


## Группировка (2/6)
Сгруппируйте пользователей сначала по экспериментальной группе, а затем по операционной системе. В каждой группе подсчитайте количество пользователей, максимальный и минимальный возраст.

Сохраните результаты в файл CSV с колонками в следующем порядке: `exp_group`, `os`, `total_users`, `max_age`, `min_age`

In [8]:
df = pd.read_sql(
    """
    SELECT exp_group, os, COUNT(id) as total_users, MAX(age) as max_age, MIN(age) as min_age
    FROM "user"
    GROUP BY exp_group, os;
    """,
    con=connection_string
)
df.head(10)

Unnamed: 0,exp_group,os,total_users,max_age,min_age
0,0,Android,21234,95,14
1,0,iOS,11489,79,14
2,1,Android,21232,92,14
3,1,iOS,11406,87,14
4,2,Android,21102,78,14
5,2,iOS,11512,74,14
6,3,Android,21319,84,14
7,3,iOS,11449,85,14
8,4,Android,21085,84,14
9,4,iOS,11377,78,14


In [9]:
df.to_csv("grouping_exp_os.csv", index=False)

## Группировка (3/6)
В каждой категории постов определите длину самого длинного текста, используя таблицу post. В ответ отправьте тему, у которой длина самого большого поста больше 25 000.

In [10]:
df = pd.read_sql(
    """
    SELECT topic, MAX(LENGTH(text))
    FROM "post"
    GROUP BY topic
    HAVING MAX(LENGTH(text)) > 25000;
    """,
    con=connection_string
)
df.head(10)

Unnamed: 0,topic,max
0,politics,25392


## Группировка (4/6)
Найдите страну с наименьшим числом пользователей среди стран, у которых общее число пользователей больше 1000.

In [11]:
df = pd.read_sql(
    """
    SELECT country, COUNT(id)
    FROM "user"
    GROUP BY country
    HAVING COUNT(id) > 1000
    ORDER BY COUNT(id)
    """,
    con=connection_string
)
df.head(10)

Unnamed: 0,country,count
0,Azerbaijan,1542
1,Finland,1599
2,Turkey,1606
3,Kazakhstan,3172
4,Belarus,3293
5,Ukraine,8273
6,Russia,143035


## Группировка (5/6)
Что выведет следующий запрос при его применении на таблице `user`?

In [12]:
df = pd.read_sql(
    """
    SELECT country, exp_group, COUNT(id)
    FROM "user"
    GROUP BY country, exp_group;
    """,
    con=connection_string
)
df.head(10)

Unnamed: 0,country,exp_group,count
0,Azerbaijan,0,341
1,Azerbaijan,1,271
2,Azerbaijan,2,327
3,Azerbaijan,3,308
4,Azerbaijan,4,295
5,Belarus,0,671
6,Belarus,1,658
7,Belarus,2,644
8,Belarus,3,641
9,Belarus,4,679


## Группировка (6/6)
Отберите для пользователей из Москвы экспериментальные группы, в которых средний возраст больше `27.2`.

In [13]:
df = pd.read_sql(
    """
    SELECT city, exp_group, COUNT(id)
    FROM "user"
    WHERE city = 'Moscow'
    GROUP BY city, exp_group
    HAVING AVG(age) > 27.2
    """,
    con=connection_string
)
df.head(10)

Unnamed: 0,city,exp_group,count
0,Moscow,1,4414
1,Moscow,3,4378


## Сортировка (1/2)
Сейчас мы будем работать с другой таблицей под названием `post`. Найдите в таблице `pos`t 3 темы с наибольшим количеством постов.

In [14]:
df = pd.read_sql(
    """
    SELECT topic, COUNT(ID)
    FROM "post"
    GROUP BY topic
    ORDER BY COUNT(ID) DESC
    """,
    con=connection_string
)
df.head(10)

Unnamed: 0,topic,count
0,movie,3000
1,covid,1799
2,business,510
3,sport,510
4,politics,417
5,tech,401
6,entertainment,386


## Сортировка (2/2)
Отберите пользователей из Воронежа (Voronezh) и отсортируйте их по возрасту в убывающем порядке. Для равных возрастов отсортируйте по возрастанию экспериментальной группы.

In [15]:
df = pd.read_sql(
    """
    SELECT *
    FROM "user"
    WHERE city = 'Voronezh'
    ORDER BY age DESC, exp_group ASC
    """,
    con=connection_string
)
df.head(10)

Unnamed: 0,id,gender,age,country,city,exp_group,os,source
0,89990,0,71,Russia,Voronezh,0,Android,ads
1,2441,1,71,Russia,Voronezh,3,Android,ads
2,14184,1,66,Russia,Voronezh,3,Android,ads
3,35093,0,65,Russia,Voronezh,0,Android,ads
4,77284,0,64,Russia,Voronezh,4,Android,ads
5,6722,1,63,Russia,Voronezh,1,iOS,ads
6,109066,1,63,Russia,Voronezh,3,iOS,organic
7,114632,0,61,Russia,Voronezh,0,Android,organic
8,146021,1,61,Russia,Voronezh,1,Android,organic
9,41056,0,61,Russia,Voronezh,3,iOS,ads


## Join (1/2)
Отберите `post_id`, `time`, `age` и `os` пользователя для всех лайков пользователей из Омска. Отсортируйте результаты по убыванию времени действия и загрузите в LMS первые 100 значений в формате CSV (сепаратор "запятая", колонки с теми же названиями, что и в задании).

In [16]:
df = pd.read_sql(
    """
    SELECT *
    FROM "feed_action"
    LIMIT 10
    """,
    con=connection_string
)
df.head(10)

Unnamed: 0,user_id,post_id,action,time
0,128244,5643,view,2022-01-06 12:06:00
1,67462,5698,view,2022-01-06 12:06:00
2,142398,5610,view,2022-01-06 12:06:01
3,70157,5710,like,2022-01-06 12:06:01
4,69663,5629,view,2022-01-06 12:06:01
5,78814,5551,view,2022-01-06 12:06:01
6,112417,5711,like,2022-01-06 12:06:01
7,78154,5670,view,2022-01-06 12:06:01
8,151234,5522,view,2022-01-06 12:06:01
9,36824,5753,view,2022-01-06 12:06:02


In [17]:
df = pd.read_sql(
    """
    SELECT f.post_id, f.time, u.age, u.os
    FROM "feed_action" as f
    JOIN "user" as u on f.user_id = u.id
    WHERE u.city = 'Omsk' AND f.action = 'like'
    ORDER BY f.time DESC
    LIMIT 100
    """,
    con=connection_string
)
df.head(10)

Unnamed: 0,post_id,time,age,os
0,7159,2022-01-26 23:59:54,17,Android
1,7184,2022-01-26 23:56:30,17,Android
2,7265,2022-01-26 23:56:03,17,Android
3,7256,2022-01-26 23:55:24,17,Android
4,7080,2022-01-26 23:55:12,17,Android
5,7163,2022-01-26 23:54:36,20,iOS
6,7174,2022-01-26 23:54:29,20,iOS
7,7315,2022-01-26 23:54:28,20,iOS
8,7280,2022-01-26 23:54:19,22,Android
9,6943,2022-01-26 23:52:29,20,iOS


In [18]:
df.to_csv("join_12.csv", sep =",", index=False)

## Join (2/2)
Найдите город, пользователи которого в возрасте 36 лет 2021-12-01 числа просмотрели запись на тему `covid` меньше всего раз относительно других городов. Введите его название на английском.

In [19]:
df = pd.read_sql(
    """
    SELECT u.city
    FROM "feed_action" as f
    JOIN "user" as u on f.user_id = u.id
    JOIN "post" as p on f.post_id = p.id
    WHERE u.age = 36 AND f.action = 'view' AND DATE(f.time) = ' 2021-12-01' AND p.topic = 'covid'
    GROUP BY u.city
    ORDER BY COUNT(*) ASC
    LIMIT 1
    """,
    con=connection_string
)
df.head(10)

Unnamed: 0,city
0,Arkhangelsk


## Топ постов
Напишите SQL запрос, используя который вы получите:
- топ N постов по лайкам,
- количество пролайкавших пользователей,
- время последнего лайка.

В качестве ответа напишите через пробел первые 3 ID постов из этого топа.

*Сохраните запрос, он может понадобиться в будущем в финальном проекте.*

In [20]:
df = pd.read_sql(
    """
    SELECT f.post_id, COUNT(DISTINCT(u.id)), MAX(f.time)
    FROM "feed_action" as f
    JOIN "user" as u on f.user_id = u.id
    JOIN "post" as p on f.post_id = p.id
    WHERE f.action = 'like'
    GROUP BY f.post_id
    ORDER BY COUNT(DISTINCT(u.id)) DESC
    LIMIT 10
    """,
    con=connection_string
)
df.head(10)

Unnamed: 0,post_id,count,max
0,4866,31714,2022-01-01 13:57:43
1,5127,29637,2022-01-05 13:52:17
2,6448,27939,2022-01-22 05:50:39
3,6498,27729,2022-01-22 21:45:11
4,6513,27686,2022-01-22 19:59:52
5,6314,26478,2022-01-20 07:46:21
6,3192,26251,2021-12-06 19:57:50
7,6864,24156,2022-01-26 23:52:48
8,5413,23441,2022-01-07 09:57:07
9,5165,22596,2022-01-04 17:43:12
