## Импорты, подключения и сбор датасетов

In [19]:
from pathlib import Path
import json
import pandas as pd
from sqlalchemy import create_engine
import os
from pathlib import Path

os.environ['ETL_ROOT'] = r'C:\Users\Roman\Desktop\ETL-PIPELINE'
BASE_DIR = Path(os.environ['ETL_ROOT'])
RAW_DIR = BASE_DIR / 'raw_data'
PROC_DIR = BASE_DIR / 'processed'
PROC_DIR.mkdir(exist_ok=True)

ad_path                        = RAW_DIR / 'tim_export_ad_user.csv'
yougile_path                   = RAW_DIR / 'yougile_export_programming.json'
save_path                      = PROC_DIR / 'yougile_transformed.csv'
mapping_path                   = BASE_DIR / 'config' / 'yougile-plugins_mapping.csv'
plugin_path                    = RAW_DIR / 'tim_export_plugin.csv'

# Подключение
engine_postgres = create_engine("postgresql+psycopg2://postgres:Q!w2e3r4@192.168.42.188:5430/postgres")
engine_pluginsdb = create_engine("postgresql+psycopg2://postgres:Q!w2e3r4@192.168.42.188:5430/pluginsdb")


## Подключение к источнику и сбор df/csv

In [20]:
df_ad = pd.read_csv(ad_path)

df_plugin = pd.read_csv(plugin_path)

df_mapping = pd.read_csv(mapping_path, encoding='utf-8', sep=',')
df_mapping.columns = df_mapping.columns.str.strip().str.replace('\ufeff', '', regex=False)

with yougile_path.open(encoding='utf-8') as f:
    tasks = json.load(f)
# нормализация в DataFrame
df_yougile = pd.json_normalize(tasks)
df_yougile = df_yougile.loc[:, ~df_yougile.columns.str.startswith('raw')]

In [21]:
# 1. Список уже известных заголовков (с учётом регистра)
known_titles = df_mapping["yougile_title"].dropna().tolist()

# 2. Фильтрация только новых записей
df_new_yougile = df_yougile[~df_yougile["title"].isin(known_titles)].copy()

# 3. Подготовка к вставке
df_new_yougile_to_add = df_new_yougile[["title", "id"]].rename(columns={
    "title": "yougile_title",
    "id": "yougile_guid"
})

In [None]:
import gspread
from google.oauth2.service_account import Credentials


SERVICE_ACCOUNT_FILE = BASE_DIR / 'config' / 'revitmaterials-4c3f80dae9f5.json' 
SCOPES = ['https://www.googleapis.com/auth/spreadsheets']

creds = Credentials.from_service_account_file(SERVICE_ACCOUNT_FILE, scopes=SCOPES)
ws = (
    gspread.authorize(creds)
    .open_by_key('19ZDWnS0Ft8bLVCbVyHsOatTTzidv55r5Rj7Woi9mNck')
    .worksheet('yougile-plugins')
)

current_rows = len(ws.get_all_values())
rows_to_append = df_new_yougile_to_add.astype(str).values.tolist()

for row in rows_to_append:
    ws.append_row(row, value_input_option='USER_ENTERED')

## Подготовка yougile dataset

In [23]:
# discipline_group_map = {
#     "АР": "Архитектура",
#     "КЖ": "Конструкции",
#     "КМ": "Конструкции",
#     "ВК/ОВ": "Инженерные системы",
#     "ОВ": "Инженерные системы",
#     "ВК": "Инженерные системы",
#     "ТХ": "Другое",
#     "Системные": "Другое",
#     "Общие": "Другое",
#     "Оценка задачи": "Другое",
#     "В работе": "Другое",
#     "Доработка": "Другое",
#     "ГП": "Другое",
#     "Тестирование": "Другое",
#     "ЭЛ": "Электросети и связь",
# }
# df_yougile["discipline_group"] = df_yougile["discipline"].map(discipline_group_map).fillna("Другое")

from workalendar.europe import Russia
import numpy as np
import pandas as pd

cal = Russia()
LOCAL_TZ = 'Asia/Yekaterinburg'  # Екатеринбург, UTC+5

def to_local(dt):
    """Переводит UTC datetime в локальное время Екатеринбурга, убирает tzinfo для совместимости с workalendar."""
    # Если уже pd.Timestamp и без tzinfo, считаем что это UTC
    dt = pd.to_datetime(dt)
    if dt.tzinfo is None:
        dt = dt.tz_localize('UTC')
    return dt.tz_convert(LOCAL_TZ).replace(tzinfo=None)

def workdays_diff(row):
    start = row["createdAt"]
    end = row["closedAt"]
    if pd.isnull(start) or pd.isnull(end):
        return np.nan

    # Переводим в локальное время Екатеринбурга
    start = to_local(start)
    end = to_local(end)

    # Настройки рабочего дня
    workday_start = 8  # 8:00
    workday_end = 17   # 17:00
    work_hours = workday_end - workday_start

    if start.date() < end.date():
        days_between = cal.get_working_days_delta(start.date(), end.date()) - 1
        days_between = max(0, days_between)

        # Доля первого дня
        if cal.is_working_day(start.date()):
            first_day_hours = workday_end - max(start.hour + start.minute/60, workday_start)
            first_day_hours = np.clip(first_day_hours, 0, work_hours)
            first_day_part = first_day_hours / work_hours
        else:
            first_day_part = 0

        # Доля последнего дня
        if cal.is_working_day(end.date()):
            last_day_hours = min(end.hour + end.minute/60, workday_end) - workday_start
            last_day_hours = np.clip(last_day_hours, 0, work_hours)
            last_day_part = last_day_hours / work_hours
        else:
            last_day_part = 0

        total = days_between + first_day_part + last_day_part
    else:
        if cal.is_working_day(start.date()):
            t1 = max(start.hour + start.minute/60, workday_start)
            t2 = min(end.hour + end.minute/60, workday_end)
            hours = np.clip(t2 - t1, 0, work_hours)
            total = hours / work_hours
        else:
            total = 0

    return round(total, 2)

# Применение к датафрейму:
df_yougile["work_days_duration"] = df_yougile.apply(workdays_diff, axis=1)  

# ✅ Приведение дат в df_tasks
for col in ["createdAt", "closedAt"]:
    df_yougile[col] = df_yougile[col].apply(
        lambda x: pd.to_datetime(x, errors='coerce') if x != "Нет данных" else pd.NaT
    )

df_yougile["status"] = np.where(
    df_yougile["work_days_duration"].isnull(),
    "В работе",
    "Закрыта"
)

print(f"Итоговых строк: {len(df_yougile):,}")

# ──────────── экспорт CSV ──────────────────────────────────────────────
save_path.parent.mkdir(parents=True, exist_ok=True)
df_yougile.to_csv(save_path, index=False, encoding="utf-8-sig")

print(f"CSV сохранён: {save_path}")

Итоговых строк: 116
CSV сохранён: C:\Users\Roman\Desktop\ETL-PIPELINE\processed\yougile_transformed.csv


## Маппинг по полям

In [24]:
df_yougile = df_yougile.merge(
    df_mapping[["yougile_title", "tim_guid"]],
    how="left",
    left_on="title",
    right_on="yougile_title"
)

df_yougile.drop(columns=["yougile_title", "executor", "description"], inplace=True)

df_yougile = df_yougile.merge(
    df_plugin[["id", "display_name"]],
    how="left",
    left_on="tim_guid",
    right_on="id",
    suffixes=("", "_plugin")
)

id_columns_to_drop = [col for col in ["id", "id_plugin", "id_y"] if col in df_yougile.columns]
df_yougile.drop(columns=id_columns_to_drop, inplace=True)

if "id_x" in df_yougile.columns:
    df_yougile.rename(columns={"id_x": "id"}, inplace=True)

df_yougile = df_yougile.merge(
    df_plugin[['id', 'developer']],      # только нужные поля
    left_on='tim_guid',
    right_on='id',
    how='left'
).drop(columns='id')  # удалим id, он дублирует tim_guid

## Переименование столбцов

In [None]:
df_yougile.rename(columns={
    "id": "yougile_id",
    "title": "yougile_title",
    "status": "yougile_status",
    "full_status": "yougile_fullstatus",
    "column": "yougile_column",
    "discipline": "yougile_discipline",
    "createdAt": "yougile_createdAt",
    "closedAt": "yougile_closedAt",
    "work_days_duration": "yougile_work_days_duration"
}, inplace=True)

## Пишем в БД

In [26]:
from sqlalchemy import text
import pandas as pd

# ✅ Проверка подключения к базе
with engine_postgres.begin() as conn:
    db_name = pd.read_sql("SELECT current_database()", conn)
    print("🔎 Подключен к базе:", db_name.iloc[0, 0])

# ✅ Пересоздание структуры таблицы на основе df_tasks (только структура, без данных)
df_yougile.head(0).to_sql(
    "ext_yougile_dev",
    engine_postgres,
    schema="datalake",
    if_exists="replace",  # Пересоздаёт таблицу с колонками из DataFrame
    index=False
)
print("🛠 Структура таблицы datalake.test_lake пересоздана из DataFrame.")

# ✅ Загрузка данных в новую таблицу
df_yougile.to_sql(
    "ext_yougile_dev",
    engine_postgres,
    schema="datalake",
    if_exists="append",  # Добавляет данные после создания структуры
    index=False
)
print(f"✅ Загружено строк: {len(df_yougile)}")

🔎 Подключен к базе: postgres
🛠 Структура таблицы datalake.test_lake пересоздана из DataFrame.
✅ Загружено строк: 116
