## Импорты, подключения и сбор датасетов

In [None]:
from pathlib import Path
import pandas as pd
from sqlalchemy import create_engine
import os

os.environ['ETL_ROOT'] = r'C:\Users\Roman\Desktop\ETL-PIPELINE'
BASE_DIR = Path(os.environ['ETL_ROOT'])
RAW_DIR = BASE_DIR / 'raw_data'
PROC_DIR = BASE_DIR / 'processed'
PROC_DIR.mkdir(exist_ok=True)

ad_path     = RAW_DIR / 'tim_export_ad_user.csv'
plugins_path  = RAW_DIR / 'tim_export_plugin.csv'
logs_path  = RAW_DIR / 'tim_export_log.csv'

save_path   = PROC_DIR / 'logs_transformed.csv'

# Подключение
engine_postgres = create_engine("postgresql+psycopg2://postgres:Q!w2e3r4@192.168.42.188:5430/postgres")
engine_pluginsdb = create_engine("postgresql+psycopg2://postgres:Q!w2e3r4@192.168.42.188:5430/pluginsdb")

df_ad = pd.read_csv(ad_path)
df_plugin = pd.read_csv(plugins_path)
df_logs = pd.read_csv(logs_path)

## Удаление столбцов и переименование

In [None]:
df_logs.drop(columns=['plugin_version', 'username',
                      'project_name', 'message', 'additional_message',
                      'exception_message', 'exception_stack_trace', 'class_name',
                      'program_name','program_version'], inplace=True)



## Слияние с df_plugins

In [None]:
df_logs = df_logs.merge(
    df_plugin[["id", "display_name"]],
    how="left",
    left_on="plugin_id",
    right_on="id"
)
df_logs.drop(columns=['id'], inplace=True)

df_logs = df_logs.merge(
    df_plugin[["id", "developer"]],
    how="left",
    left_on="plugin_id",
    right_on="id"
)
df_logs.drop(columns=['id'], inplace=True)

## Отсекли проектировщиков

In [None]:
bim_users = {
    'Колпаков Семен Дмитриевич','Пятков Роман Анатольевич',
    'Андреев Александр Константинович','Кичигин Андрей Владимирович',
    'Панов Антон Владимирович','Васьков Денис Игоревич',
    'Попов Антон Михайлович','Кузовлева Ольга Сергеевна',
    'Калачев Даниил Артемович','Григорьев Роман Николаевич',
    'Красильников Дмитрий Сергеевич','Литуева Юлия Дмитриевна',
    'Жук Виталий Томашевич','Овсянкин Роман Николаевич',
    'Романова Анна Вячеславовна','Коновалов Василий Сергеевич',
    'Урманчеев Роман Дамирович'
}

df_logs["is_bim"] = df_logs["user_display_name"].isin(bim_users)


## Разделяем БД

In [None]:
df_logs_bim = df_logs[df_logs['is_bim'] == True].copy()
df_logs_designers = df_logs[df_logs['is_bim'] == False].copy()

## Пишем в БД

In [None]:
from sqlalchemy import text
import pandas as pd

# ✅ Проверка подключения к базе
with engine_postgres.begin() as conn:
    db_name = pd.read_sql("SELECT current_database()", conn)
    print("🔎 Подключен к базе:", db_name.iloc[0, 0])

# ✅ Пересоздание структуры таблицы
df_logs_designers.head(0).to_sql(
    "ext_logs_analytics_designers",
    engine_postgres,
    schema="datalake",
    if_exists="replace",  # Пересоздаёт таблицу с колонками из DataFrame
    index=False
)
print("🛠 Структура таблицы пересоздана из DataFrame.")

# ✅ Загрузка данных в новую таблицу
df_logs_designers.to_sql(
    "ext_logs_analytics_designers",
    engine_postgres,
    schema="datalake",
    if_exists="append",
    index=False
)
print(f"✅ Загружено строк: {len(df_logs_designers)}")

# ✅ Пересоздание структуры таблицы
df_logs_bim.head(0).to_sql(
    "ext_logs_analytics_bim",
    engine_postgres,
    schema="datalake",
    if_exists="replace",  # Пересоздаёт таблицу с колонками из DataFrame
    index=False
)
print("🛠 Структура таблицы пересоздана из DataFrame.")

# ✅ Загрузка данных в новую таблицу
df_logs_bim.to_sql(
    "ext_logs_analytics_bim",
    engine_postgres,
    schema="datalake",
    if_exists="append",
    index=False
)
print(f"✅ Загружено строк: {len(df_logs_bim)}")