## Импорты, подключения и сбор датасетов

In [None]:
import json
import pandas as pd
from sqlalchemy import create_engine
import pathlib
import os
import sys
import asyncio

if sys.platform.startswith("win"):
    asyncio.set_event_loop_policy(asyncio.WindowsSelectorEventLoopPolicy())

os.environ['ETL_ROOT'] = r'C:\Users\Roman\Desktop\ETL-PIPELINE'
BASE_DIR = pathlib.Path(os.environ['ETL_ROOT'])
RAW_DIR = BASE_DIR / 'raw_data'
PROC_DIR = BASE_DIR / 'processed'

ad_path                        = RAW_DIR / 'tim_export_ad_user.csv'
plugin_path                    = RAW_DIR / 'tim_export_plugin.csv'
monitoring_path                = RAW_DIR / 'tim_export_monitoring.csv'
plugin_development_stage_path  = RAW_DIR / 'tim_export_plugin_development_stage.csv'
yougile_path                   = RAW_DIR / 'yougile_export_programming.json'
gitlab_path                    = RAW_DIR / 'gitlab_export_lines.json'
mapping_path                   = BASE_DIR / 'config' / 'yougile-plugins-gitlab_mapping.csv'

save_path = PROC_DIR / 'familymanager_transformed.csv'

# Подключение
engine_postgres = create_engine("postgresql+psycopg2://postgres:Q!w2e3r4@192.168.42.188:5430/postgres")
engine_pluginsdb = create_engine("postgresql+psycopg2://postgres:Q!w2e3r4@192.168.42.188:5430/pluginsdb")

## Создание датафреймов по источникам данных

In [None]:
df_ad = pd.read_csv(ad_path)
df_plugin = pd.read_csv(plugin_path)
df_plugin_development_stage = pd.read_csv(plugin_development_stage_path)

df_monitoring = pd.read_csv(monitoring_path)

with gitlab_path.open(encoding='utf-8') as f:
    gitlab = json.load(f)
df_gitlab = pd.json_normalize(gitlab)

with yougile_path.open(encoding='utf-8') as m:
    yougile = json.load(m)
df_yougile = pd.json_normalize(yougile)

df_mapping = pd.read_csv(mapping_path, encoding='utf-8', sep=',')
df_mapping.columns = df_mapping.columns.str.strip().str.replace('\ufeff', '', regex=False)

## Создание коротких названий проектов и удаление лишних столбцов в мониторинге

In [None]:
def extract_short_name(name: str) -> str:
    parts = name.split('_')
    return '_'.join(parts[:2]) if len(parts) >= 2 else name

df_monitoring['short_project_name'] = df_monitoring['project_name'].astype(str).apply(extract_short_name)

df_monitoring = df_monitoring.drop(columns=[
    'plugin_version',
    'username',
    'program_name',
    'program_version',
    'project_name'
])

In [None]:
bim_users = {
    'Колпаков Семен Дмитриевич','Пятков Роман Анатольевич',
    'Андреев Александр Константинович','Кичигин Андрей Владимирович',
    'Панов Антон Владимирович','Васьков Денис Игоревич','Попов Антон Михайлович',
    'Кузовлева Ольга Сергеевна','Калачев Даниил Артемович',
    'Григорьев Роман Николаевич','Красильников Дмитрий Сергеевич',
    'Литуева Юлия Дмитриевна','Жук Виталий Томашевич','Овсянкин Роман Николаевич',
    'Романова Анна Вячеславовна','Коновалов Василий Сергеевич',
    'Урманчеев Роман Дамирович'
}

df_monitoring["is_bim"] = df_monitoring["user_display_name"].isin(bim_users)

In [None]:
df_plugin = df_plugin.merge(
    df_plugin_development_stage[['id', 'description']].rename(columns={'id': 'development_stage_id_ref'}),
    left_on='development_stage_id',
    right_on='development_stage_id_ref',
    how='left'
).drop(columns=['development_stage_id_ref'])  # убираем технический ключ

df_plugin = df_plugin.drop(columns=[
    'development_stage_id',
    'long_description',
    'instruction_link',
    'video_link',
    'technical_specification'
])

In [None]:
df_monitoring = df_monitoring.merge(
    df_plugin,
    left_on='plugin_id',
    right_on='id',
    how='left'
).drop(columns=['id'])  # если столбец id из plugin больше не нужен

In [None]:
df_monitoring = df_monitoring.merge(
    df_mapping[['tim_guid', 'gitlab_id']],
    left_on='plugin_id',
    right_on='tim_guid',
    how='left'
).drop(columns=['tim_guid'])

df_monitoring = df_monitoring.merge(
    df_mapping[['tim_guid', 'yougile_guid']],
    left_on='plugin_id',
    right_on='tim_guid',
    how='left'
).drop(columns=['tim_guid'])

In [None]:
df_monitoring['gitlab_id'] = pd.to_numeric(df_monitoring['gitlab_id'], errors='coerce').astype('Int64')
df_gitlab['id'] = pd.to_numeric(df_gitlab['id'], errors='coerce').astype('Int64')

df_monitoring = df_monitoring.merge(
    df_gitlab[['id', 'chosen_branch', 'loc_by_language.C#', 'loc_by_language.XAML']],
    left_on='gitlab_id',
    right_on='id',
    how='left'
).drop(columns=['id'])

In [None]:
str_cols = df_monitoring.select_dtypes(include='object').columns
df_monitoring[str_cols] = df_monitoring[str_cols].fillna("Нет данных")

num_cols = df_monitoring.select_dtypes(include=['number', 'Int64']).columns
df_monitoring[num_cols] = df_monitoring[num_cols].fillna(0)

date_cols = df_monitoring.select_dtypes(include='datetime').columns
df_monitoring[date_cols] = df_monitoring[date_cols].fillna(pd.NaT)  # Или заменить:

In [None]:
df_monitoring_bim = df_monitoring[df_monitoring['is_bim'] == True].copy()
df_monitoring_designers = df_monitoring[df_monitoring['is_bim'] == False].copy()

## Пишем в БД

In [None]:
from sqlalchemy import text
import pandas as pd

# ✅ Проверка подключения к базе
with engine_postgres.begin() as conn:
    db_name = pd.read_sql("SELECT current_database()", conn)
    print("🔎 Подключен к базе:", db_name.iloc[0, 0])

# ✅ Пересоздание структуры таблицы
df_monitoring_designers.head(0).to_sql(
    "ext_scripts_analytics_designers",
    engine_postgres,
    schema="datalake",
    if_exists="replace",  # Пересоздаёт таблицу с колонками из DataFrame
    index=False
)
print("🛠 Структура таблицы datalake пересоздана из DataFrame.")

# ✅ Загрузка данных в новую таблицу
df_monitoring_designers.to_sql(
    "ext_scripts_analytics_designers",
    engine_postgres,
    schema="datalake",
    if_exists="append",
    index=False
)
print(f"✅ Загружено строк: {len(df_monitoring_designers)}")

# ✅ Пересоздание структуры таблицы
df_monitoring_bim.head(0).to_sql(
    "ext_scripts_analytics_bim",
    engine_postgres,
    schema="datalake",
    if_exists="replace",  # Пересоздаёт таблицу с колонками из DataFrame
    index=False
)
print("🛠 Структура таблицы datalake пересоздана из DataFrame.")

# ✅ Загрузка данных в новую таблицу
df_monitoring_bim.to_sql(
    "ext_scripts_analytics_bim",
    engine_postgres,
    schema="datalake",
    if_exists="append",
    index=False
)
print(f"✅ Загружено строк: {len(df_monitoring_bim)}")

# ✅ Пересоздание структуры таблицы
df_plugin.head(0).to_sql(
    "ext_scripts_plugin",
    engine_postgres,
    schema="datalake",
    if_exists="replace",  # Пересоздаёт таблицу с колонками из DataFrame
    index=False
)
print("🛠 Структура таблицы datalake пересоздана из DataFrame.")

# ✅ Загрузка данных в новую таблицу
df_plugin.to_sql(
    "ext_scripts_plugin",
    engine_postgres,
    schema="datalake",
    if_exists="append",
    index=False
)
print(f"✅ Загружено строк: {len(df_plugin)}")