In [1]:
import pandas as pd
from sqlalchemy import create_engine

In [17]:
df = pd.read_csv('processed_action_setka.csv')

In [18]:
# Создаем подключение к PostgreSQL
engine = create_engine('postgresql+psycopg2://disa1331:password@localhost:5434/setka_x_hh.ru')

In [19]:
# Загружаем датасет в таблицу PostgreSQL (будет создана, если ее нету)
df.to_sql('setka_actions', engine, if_exists='replace', index=False)

221

In [20]:
# Создаем подключение
%load_ext sql
%sql postgresql://disa1331:password@localhost:5434/setka_x_hh.ru

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


In [21]:
%%sql
-- # Проверяем, что данные загрузились в БД.
SELECT COUNT(*)
FROM setka_actions

 * postgresql://disa1331:***@localhost:5434/setka_x_hh.ru
1 rows affected.


count
1453221


In [36]:
%%sql
-- # Проверяем типы данных
SELECT column_name, data_type
FROM information_schema.columns
WHERE table_name = 'setka_actions'

 * postgresql://disa1331:***@localhost:5434/setka_x_hh.ru
4 rows affected.


column_name,data_type
session_id,bigint
user_id,bigint
action_name,text
action_time,text


In [37]:
%%sql
ALTER TABLE setka_actions
ALTER COLUMN action_time TYPE timestamp
USING action_time::timestamp

 * postgresql://disa1331:***@localhost:5434/setka_x_hh.ru
Done.


[]

При загрузке данных из pandas в PostgreSQL колонка `action_time` была создана в формате `text`.  
Для корректной работы с временными интервалами тип данных был явно приведен к `timestamp` на стороне базы данных. 

----

## Задачи

### Провести анализ поведения пользователей

    1. Количество сессий;
    2. Среднее время сессии;
    3. DAU;
    4. Количество действий (лайков, репостов и т.д.);
    5. Среднее количество действий за сессию;
    6. Иные метрики, которые по вашему мнению помогут анализировать поведение пользователей.
----

## 1. Количество сессий

In [23]:
%%sql
SELECT COUNT(session_id)
FROM setka_actions

 * postgresql://disa1331:***@localhost:5434/setka_x_hh.ru
1 rows affected.


count
1453221


## **Результат:**
Общее количество сессий - **1 453 221**.

Это говорит о высокой активности пользователей и большом объеме взаимодействий с платформой.

----

## 2. Среднее время сессии

In [40]:
%%sql
SELECT ROUND(AVG(session_duration)/60) AS avg_session_duration_minutes
FROM (
    SELECT
        session_id,
        EXTRACT(EPOCH FROM (MAX(action_time) - MIN(action_time))) as session_duration  --  Переводим время в секунды и считаем длительность каждой сессии
    FROM setka_actions
    GROUP BY session_id 
) AS session_durations

 * postgresql://disa1331:***@localhost:5434/setka_x_hh.ru
1 rows affected.


avg_session_duration_minutes
50


## **Результат:**

Средняя продолжительность сессии составляет около **50 минут**.

Длительное время сессии указывает на высокую вовлеченность пользователей.  
Они совершают несколько действий за одну сессию и продолжают взаимодейтсиве с платформой, а не покидают ее сразу после первого действия.

----

## 3. DAU (Daily Active Users)

In [41]:
%%sql
SELECT DATE(action_time) AS date, COUNT(DISTINCT user_id) AS dau
FROM setka_actions
GROUP BY DATE(action_time)
ORDER BY date
LIMIT 10

 * postgresql://disa1331:***@localhost:5434/setka_x_hh.ru
10 rows affected.


date,dau
2025-01-01,4072
2025-01-02,4184
2025-01-03,4186
2025-01-04,4344
2025-01-05,4078
2025-01-06,4227
2025-01-07,4198
2025-01-08,4167
2025-01-09,4274
2025-01-10,4202


## **Результат:**

По результатам расчета видно, что платформа имеет стабильную ежедневную активность пользователей, что говорит о регулярном возвращении пользователей и постоянном использовании.

----

## 4. Количество действий

In [44]:
%%sql
SELECT action_name, COUNT(*) AS count_actions
FROM setka_actions
GROUP BY action_name
ORDER BY count_actions DESC

 * postgresql://disa1331:***@localhost:5434/setka_x_hh.ru
7 rows affected.


action_name,count_actions
post_view,538093
profile_view,268897
like,215094
comment,161433
subscribe,107917
message,107745
share,54042


## **Результат:**
Наибольшее количество действий приходится на **post_view** - `538 093` -  что логично, для социальной сети.  
Это ожидаемо для социальной сети, так как просмотр постов является базовым сценарием взаимодействия пользователя.

На втором месте по находится **profile_view** - `268 897` действий, что говорит о заинтересованности пользователей в изучении профилей других участников.

Действие **like** также имеет высокий уровень активности - `215 094`, что указывает на вовлеченность аудитории в контент.

В тоже время действия **comment**, **subscribe**, **message** и **share** демонстрируют значительно более низкие показатели.  
Это может указывать на:  
- Низкую видимость или неудобное расположение соответствующих кнопок
- Недостаточную мотивацию пользователей к более активному действию
- Качесто и формат контента, не стимулирующий обсуждение и распространение.

Данные действия требуют дополнительного анализа, так как именно они отражают глубину вовлеченности пользователей, а не просто пассивное потребление контента.

----

## 5. Среднее количество действий за сессию

In [60]:
%%sql
SELECT ROUND(AVG(count_action)) AS avg_count_actions
FROM (
    SELECT session_id, count(action_name) AS count_action
    FROM setka_actions
    GROUP BY session_id
)

 * postgresql://disa1331:***@localhost:5434/setka_x_hh.ru
1 rows affected.


avg_count_actions
12


## **Результат:**

Среднее количество действий на одну сессию составляет `12`.  

Показатель в **12 действий за сессию** можно охарактеризовать как умеренный уровень активности пользователей.

С одной стороны, значение не является критически низким, что говорит о том, что пользователи не ограничиваются единичным действием и продолжают взаимодействовать с платформой в рамках одной сессии.

С другой стороны, структура ранее рассмотренных действий показывает, что основную долю активности составляют просмотры (`post_view`, `profile_view`), тогда как более вовлекающие действия (`comment`, `share`, `message`, `subscribe`) совершаются значительно реже.  
Это может указывать на преобладание пассивного потребления контента над активным взаимодействием.

----

## 6. Конверсия пользователей из просмотра в целевое действие

In [76]:
%%sql
--Конверсия из просмотра в подписку
WITH user_actions AS(
    SELECT
        user_id,
        MIN(CASE WHEN action_name = 'post_view' THEN action_time END) AS first_view_time,
        MIN(CASE WHEN action_name = 'like' THEN action_time END) AS first_like_time,
        MIN(CASE WHEN action_name = 'subscribe' THEN action_time END) AS first_subscribe_time,
        MIN(CASE WHEN action_name = 'profile_view' THEN action_time END) AS first_profile_view_time,
        MIN(CASE WHEN action_name = 'message' THEN action_time END) AS first_message_time,
        MIN(CASE WHEN action_name = 'comment' THEN action_time END) AS first_comment_time,
        MIN(CASE WHEN action_name = 'share' THEN action_time END) AS first_share_time
    FROM setka_actions
    GROUP BY user_id
)

SELECT
    ROUND(
        COUNT(*) FILTER(WHERE first_subscribe_time IS NOT NULL AND first_subscribe_time > first_view_time)::numeric
        / COUNT(*) FILTER(WHERE first_view_time IS NOT NULL) * 100, 2
    ) AS subscribe_conversion,
    ROUND(
        COUNT(*) FILTER(WHERE first_like_time IS NOT NULL AND first_like_time > first_view_time)::numeric
        / COUNT(*) FILTER(WHERE first_view_time IS NOT NULL) * 100, 2
    ) AS like_conversion,
    ROUND(
        COUNT(*) FILTER(WHERE first_profile_view_time IS NOT NULL AND first_profile_view_time > first_view_time)::numeric
        / COUNT(*) FILTER(WHERE first_view_time IS NOT NULL) * 100, 2
    ) AS profile_view_conversion,
    ROUND(
        COUNT(*) FILTER(WHERE first_message_time IS NOT NULL AND first_message_time > first_view_time)::numeric
        / COUNT(*) FILTER(WHERE first_view_time IS NOT NULL) * 100, 2
    ) AS message_conversion,
    ROUND(
        COUNT(*) FILTER(WHERE first_comment_time IS NOT NULL AND first_comment_time > first_view_time)::numeric
        / COUNT(*) FILTER(WHERE first_view_time IS NOT NULL) * 100, 2
    ) AS comment_conversion,
    ROUND(
        COUNT(*) FILTER(WHERE first_share_time IS NOT NULL AND first_share_time > first_view_time)::numeric
        / COUNT(*) FILTER(WHERE first_view_time IS NOT NULL) * 100, 2
    ) AS share_conversion
FROM user_actions

 * postgresql://disa1331:***@localhost:5434/setka_x_hh.ru
1 rows affected.


subscribe_conversion,like_conversion,profile_view_conversion,message_conversion,comment_conversion,share_conversion
54.93,61.71,60.76,55.29,60.16,40.07


Для анализа конверсии пользователей из просмотра поста в различные действия были расчитаны следующие показатели:  
- **subscrive_converios** - Доля пользователей, которые подписались после просмотра поста
- **profile_view** - Доля пользователей, которые посмотрели профиль после просмотра
- **message_conversion** - Доля пользователей, которые отправили сообщение после просмотра поста
- **comment_conversion** - Доля пользователей, которые оставили комментарий после просмотра поста
- **share_conversion** - Доля пользователей, которые подписались после просмотра поста.

----
## **Результат:**
- Наибольшая конверсия наблюдается для просмотра профиля - (`~61%`) пользователей.
- Пользователи активно комментируют (`~60%`)
- Конверсии на подписку, сообщения и репосты ниже, что может указывать на необходимость улучшения видимости этих функций или качества контента.