In [None]:
!pip install pandas sqlalchemy psycopg2-binary javaobj-py3


In [1]:
import os
import logging
import pandas as pd
from sqlalchemy import create_engine, text
import javaobj  # из пакета javaobj-py3

logger = logging.getLogger(__name__)
logging.basicConfig(level=logging.INFO)


DB_URI = "postgresql://postgres:smartgrid@172.31.168.2/solar_db"  
engine = create_engine(DB_URI)


OUTPUT_DIR = "data"
os.makedirs(OUTPUT_DIR, exist_ok=True)


In [2]:
def extract_weather_from_db(user_object_id, prediction_date):
    """
    1) Извличане на current_data от weather_data
    2) Десериализация на Java обект
    3) Извличане на forecast → extract_forecast_data
    4) DataFrame + конвертиране на time в datetime
    5) Числови колони
    6) Ресемплиране на 15-минутен интервал + интерполация
    """
    sql = text("""
        SELECT current_data
        FROM weather_data
        WHERE user_object_id = :uid
          AND date = :dt
        ORDER BY id
        LIMIT 1
    """)

    with engine.connect() as conn:
        row = conn.execute(sql, {"uid": user_object_id, "dt": prediction_date}).fetchone()

    if not row:
        logger.error("Няма записи за user_object_id=%s на %s", user_object_id, prediction_date)
        return None

    root_obj = deserialize_java_object(row[0])
    if root_obj is None:
        return None

    forecast_obj = getattr(root_obj, "forecast", None)
    if forecast_obj is None:
        logger.error("В десериализирания обект няма атрибут forecast")
        return None

    raw = extract_forecast_data(forecast_obj)
    if not raw:
        logger.error("extract_forecast_data върна празен списък")
        return None

    df = pd.DataFrame(raw)

    # конвертиране на време и индексиране
    try:
        df["time"] = pd.to_datetime(df["time"], format="%Y-%m-%d %H:%M")
    except Exception as e:
        logger.error("Неуспешна конверсия на време: %s", e)
        return None

    df = df.drop_duplicates(subset="time").set_index("time").sort_index()

    # числови колони
    for col in ["temp_c", "cloud"]:
        if col in df.columns:
            df[col] = pd.to_numeric(df[col], errors="coerce")

    # проверка дали има какво да се интерполира
    if df[["temp_c", "cloud"]].isna().all().all():
        logger.error("Няма валидни числа в temp_c или cloud за интерполация")
        return None

    # ресемплиране + интерполация
    try:
        df15 = df.resample("15min").interpolate(method="linear")
    except Exception as e:
        logger.error("Грешка при ресемплиране: %s", e)
        return None

    # финална подготовка
    df15 = df15.reset_index()             # <-- вот тут была ошибка
    df15["time"] = df15["time"].dt.strftime("%Y-%m-%d %H:%M")
    return df15



In [None]:
# Параметры нашего объекта и даты прогноза
user_object_id = 70          # здесь ставишь ID нужного объекта
prediction_date = "2025-03-20"  # дата в формате YYYY-MM-DD

df_weather = extract_weather_from_db(user_object_id, prediction_date)

if df_weather is None:
    print("Не удалось получить данные погоды.")
else:
    display(df_weather.head())

    # имя файла: база_данных/weather_uid_70_2025-03-20.csv
    filename = f"weather_uid_{user_object_id}_{prediction_date}.csv"
    out_path = os.path.join(OUTPUT_DIR, filename)

    df_weather.to_csv(out_path, index=False, encoding="utf-8")
    print("Успешно записано в:", out_path)


In [3]:
# --- Итеративная выгрузка погоды с 15.08.2024 по 25.02.2025 ---

user_object_id = 70
start_date = "2024-08-15"
end_date   = "2025-02-25"

date_range = pd.date_range(start=start_date, end=end_date, freq="D")

# Папка для сохранения
OUTPUT_DIR = "data"
os.makedirs(OUTPUT_DIR, exist_ok=True)

for dt in date_range:
    prediction_date = dt.strftime("%Y-%m-%d")
    print(f"Обрабатываем {prediction_date} ...")

    df_weather = extract_weather_from_db(user_object_id, prediction_date)

    if df_weather is None or df_weather.empty:
        print(f"  ⚠ Нет данных погоды для {prediction_date}")
        continue

    # Формируем имя файла
    filename = f"weather_uid_{user_object_id}_{prediction_date}.csv"
    out_path = os.path.join(OUTPUT_DIR, filename)

    # Сохраняем
    df_weather.to_csv(out_path, index=False, encoding="utf-8")
    print(f"  ✅ Успешно записано: {out_path}")

print("Готово!")


ERROR:__main__:Няма записи за user_object_id=70 на 2024-08-15
ERROR:__main__:Няма записи за user_object_id=70 на 2024-08-16
ERROR:__main__:Няма записи за user_object_id=70 на 2024-08-17
ERROR:__main__:Няма записи за user_object_id=70 на 2024-08-18
ERROR:__main__:Няма записи за user_object_id=70 на 2024-08-19
ERROR:__main__:Няма записи за user_object_id=70 на 2024-08-20
ERROR:__main__:Няма записи за user_object_id=70 на 2024-08-21
ERROR:__main__:Няма записи за user_object_id=70 на 2024-08-22
ERROR:__main__:Няма записи за user_object_id=70 на 2024-08-23
ERROR:__main__:Няма записи за user_object_id=70 на 2024-08-24
ERROR:__main__:Няма записи за user_object_id=70 на 2024-08-25
ERROR:__main__:Няма записи за user_object_id=70 на 2024-08-26
ERROR:__main__:Няма записи за user_object_id=70 на 2024-08-27
ERROR:__main__:Няма записи за user_object_id=70 на 2024-08-28
ERROR:__main__:Няма записи за user_object_id=70 на 2024-08-29
ERROR:__main__:Няма записи за user_object_id=70 на 2024-08-30
ERROR:__

Обрабатываем 2024-08-15 ...
  ⚠ Нет данных погоды для 2024-08-15
Обрабатываем 2024-08-16 ...
  ⚠ Нет данных погоды для 2024-08-16
Обрабатываем 2024-08-17 ...
  ⚠ Нет данных погоды для 2024-08-17
Обрабатываем 2024-08-18 ...
  ⚠ Нет данных погоды для 2024-08-18
Обрабатываем 2024-08-19 ...
  ⚠ Нет данных погоды для 2024-08-19
Обрабатываем 2024-08-20 ...
  ⚠ Нет данных погоды для 2024-08-20
Обрабатываем 2024-08-21 ...
  ⚠ Нет данных погоды для 2024-08-21
Обрабатываем 2024-08-22 ...
  ⚠ Нет данных погоды для 2024-08-22
Обрабатываем 2024-08-23 ...
  ⚠ Нет данных погоды для 2024-08-23
Обрабатываем 2024-08-24 ...
  ⚠ Нет данных погоды для 2024-08-24
Обрабатываем 2024-08-25 ...
  ⚠ Нет данных погоды для 2024-08-25
Обрабатываем 2024-08-26 ...
  ⚠ Нет данных погоды для 2024-08-26
Обрабатываем 2024-08-27 ...
  ⚠ Нет данных погоды для 2024-08-27
Обрабатываем 2024-08-28 ...
  ⚠ Нет данных погоды для 2024-08-28
Обрабатываем 2024-08-29 ...
  ⚠ Нет данных погоды для 2024-08-29
Обрабатываем 2024-08-30 .

ERROR:__main__:Няма записи за user_object_id=70 на 2024-10-12
ERROR:__main__:Няма записи за user_object_id=70 на 2024-10-13
ERROR:__main__:Няма записи за user_object_id=70 на 2024-10-14
ERROR:__main__:Няма записи за user_object_id=70 на 2024-10-15
ERROR:__main__:Няма записи за user_object_id=70 на 2024-10-16
ERROR:__main__:Няма записи за user_object_id=70 на 2024-10-17
ERROR:__main__:Няма записи за user_object_id=70 на 2024-10-18
ERROR:__main__:Няма записи за user_object_id=70 на 2024-10-19
ERROR:__main__:Няма записи за user_object_id=70 на 2024-10-20
ERROR:__main__:Няма записи за user_object_id=70 на 2024-10-21
ERROR:__main__:Няма записи за user_object_id=70 на 2024-10-22
ERROR:__main__:Няма записи за user_object_id=70 на 2024-10-23
ERROR:__main__:Няма записи за user_object_id=70 на 2024-10-24
ERROR:__main__:Няма записи за user_object_id=70 на 2024-10-25
ERROR:__main__:Няма записи за user_object_id=70 на 2024-10-26
ERROR:__main__:Няма записи за user_object_id=70 на 2024-10-27
ERROR:__

  ⚠ Нет данных погоды для 2024-10-11
Обрабатываем 2024-10-12 ...
  ⚠ Нет данных погоды для 2024-10-12
Обрабатываем 2024-10-13 ...
  ⚠ Нет данных погоды для 2024-10-13
Обрабатываем 2024-10-14 ...
  ⚠ Нет данных погоды для 2024-10-14
Обрабатываем 2024-10-15 ...
  ⚠ Нет данных погоды для 2024-10-15
Обрабатываем 2024-10-16 ...
  ⚠ Нет данных погоды для 2024-10-16
Обрабатываем 2024-10-17 ...
  ⚠ Нет данных погоды для 2024-10-17
Обрабатываем 2024-10-18 ...
  ⚠ Нет данных погоды для 2024-10-18
Обрабатываем 2024-10-19 ...
  ⚠ Нет данных погоды для 2024-10-19
Обрабатываем 2024-10-20 ...
  ⚠ Нет данных погоды для 2024-10-20
Обрабатываем 2024-10-21 ...
  ⚠ Нет данных погоды для 2024-10-21
Обрабатываем 2024-10-22 ...
  ⚠ Нет данных погоды для 2024-10-22
Обрабатываем 2024-10-23 ...
  ⚠ Нет данных погоды для 2024-10-23
Обрабатываем 2024-10-24 ...
  ⚠ Нет данных погоды для 2024-10-24
Обрабатываем 2024-10-25 ...
  ⚠ Нет данных погоды для 2024-10-25
Обрабатываем 2024-10-26 ...
  ⚠ Нет данных погоды для

ERROR:__main__:Няма записи за user_object_id=70 на 2025-01-20
ERROR:__main__:Няма записи за user_object_id=70 на 2025-01-21
ERROR:__main__:Няма записи за user_object_id=70 на 2025-01-22
ERROR:__main__:Няма записи за user_object_id=70 на 2025-01-23
ERROR:__main__:Няма записи за user_object_id=70 на 2025-01-24
ERROR:__main__:Няма записи за user_object_id=70 на 2025-01-25
ERROR:__main__:Няма записи за user_object_id=70 на 2025-01-26
ERROR:__main__:Няма записи за user_object_id=70 на 2025-01-27


  ⚠ Нет данных погоды для 2025-01-19
Обрабатываем 2025-01-20 ...
  ⚠ Нет данных погоды для 2025-01-20
Обрабатываем 2025-01-21 ...
  ⚠ Нет данных погоды для 2025-01-21
Обрабатываем 2025-01-22 ...
  ⚠ Нет данных погоды для 2025-01-22
Обрабатываем 2025-01-23 ...
  ⚠ Нет данных погоды для 2025-01-23
Обрабатываем 2025-01-24 ...
  ⚠ Нет данных погоды для 2025-01-24
Обрабатываем 2025-01-25 ...
  ⚠ Нет данных погоды для 2025-01-25
Обрабатываем 2025-01-26 ...
  ⚠ Нет данных погоды для 2025-01-26
Обрабатываем 2025-01-27 ...
  ⚠ Нет данных погоды для 2025-01-27
Обрабатываем 2025-01-28 ...


NameError: name 'deserialize_java_object' is not defined

In [6]:
import os
import logging
import pandas as pd
from sqlalchemy import create_engine, text
import javaobj  # javaobj-py3

logger = logging.getLogger(__name__)
logging.basicConfig(level=logging.INFO)

# --- Параметры подключения к БД ---
DB_URI = "postgresql://postgres:smartgrid@172.31.168.2/solar_db"
engine = create_engine(DB_URI)

# Папка для сохранения CSV
OUTPUT_DIR = "data"
os.makedirs(OUTPUT_DIR, exist_ok=True)


def deserialize_java_object(binary_value):
    """
    Десериализация бинарного поля (bytea) в Java-объект через javaobj.loads.
    """
    if binary_value is None:
        return None
    if isinstance(binary_value, memoryview):
        binary_value = binary_value.tobytes()
    try:
        return javaobj.loads(binary_value)
    except Exception as e:
        logger.error("Грешка при десериализация на Java обект: %s", e)
        return None


def unwrap_value(obj):
    """
    Если obj имеет атрибут .value (JavaDouble/JavaInteger/JavaString) — вернуть obj.value,
    иначе вернуть obj как есть.
    """
    return getattr(obj, "value", obj)


def extract_forecast_data(forecast_obj):
    """
    Извлекает из forecast_obj список записей:
      - time   (строка "YYYY-MM-DD HH:MM")
      - temp_c (float)
      - cloud  (int)
    """
    days = getattr(forecast_obj, "forecastday", None)
    if days is None:
        return []
    try:
        days = list(days)
    except Exception as e:
        logger.error("Неуспешно преобразуване на forecastday в списък: %s", e)
        return []

    data = []
    for day in days:
        hours = getattr(day, "hour", None)
        if hours is None:
            continue
        try:
            hours = list(hours)
        except Exception as e:
            logger.error("Неуспешно преобразуване на hour в списък: %s", e)
            continue

        for hour in hours:
            t_raw     = getattr(hour, "time", None)
            temp_raw  = getattr(hour, "tempC", None)
            cloud_raw = getattr(hour, "cloud", None)

            t_str     = unwrap_value(t_raw)
            temp_val  = unwrap_value(temp_raw)
            cloud_val = unwrap_value(cloud_raw)

            try:
                temp_c = float(temp_val) if temp_val is not None else None
            except Exception:
                temp_c = None
            try:
                cloud = int(cloud_val) if cloud_val is not None else None
            except Exception:
                cloud = None

            if t_str:
                data.append({
                    "time": str(t_str),
                    "temp_c": temp_c,
                    "cloud": cloud
                })

    return data


def extract_weather_from_db(user_object_id, prediction_date):
    """
    1) SELECT current_data FROM weather_data
    2) десериализация Java-объекта
    3) извлечение forecast → extract_forecast_data
    4) DataFrame, to_datetime, ресемплинг 15 минут, интерполяция
    Возвращает DataFrame с колонками: time, temp_c, cloud
    """
    sql = text("""
        SELECT current_data
        FROM weather_data
        WHERE user_object_id = :uid
          AND date = :dt
        ORDER BY id
        LIMIT 1
    """)

    with engine.connect() as conn:
        row = conn.execute(sql, {"uid": user_object_id, "dt": prediction_date}).fetchone()

    if not row:
        logger.error("Няма записи за user_object_id=%s на %s", user_object_id, prediction_date)
        return None

    root_obj = deserialize_java_object(row[0])
    if root_obj is None:
        return None

    forecast_obj = getattr(root_obj, "forecast", None)
    if forecast_obj is None:
        logger.error("В десериализирания обект няма атрибут forecast")
        return None

    raw = extract_forecast_data(forecast_obj)
    if not raw:
        logger.error("extract_forecast_data върна празен списък")
        return None

    df = pd.DataFrame(raw)

    try:
        df["time"] = pd.to_datetime(df["time"], format="%Y-%m-%d %H:%M")
    except Exception as e:
        logger.error("Неуспешна конверсия на време: %s", e)
        return None

    df = df.drop_duplicates(subset="time").set_index("time").sort_index()

    for col in ["temp_c", "cloud"]:
        if col in df.columns:
            df[col] = pd.to_numeric(df[col], errors="coerce")

    if df[["temp_c", "cloud"]].isna().all().all():
        logger.error("Няма валидни числа в temp_c или cloud за интерполация")
        return None

    try:
        df15 = df.resample("15min").interpolate(method="linear")
    except Exception as e:
        logger.error("Грешка при ресемплиране: %s", e)
        return None

    df15 = df15.reset_index()
    df15["time"] = df15["time"].dt.strftime("%Y-%m-%d %H:%M")
    return df15


In [5]:
user_object_id = 70

sql_dates = text("""
    SELECT DISTINCT date
    FROM weather_data
    WHERE user_object_id = :uid
    ORDER BY date
""")

with engine.connect() as conn:
    df_dates = pd.read_sql(sql_dates, conn, params={"uid": user_object_id})

df_dates


Unnamed: 0,date
0,2025-01-28
1,2025-01-29
2,2025-01-30
3,2025-01-31
4,2025-02-01
...,...
290,2025-11-14
291,2025-11-15
292,2025-11-16
293,2025-11-17


In [7]:
user_object_id = 70

# df_dates уже получен в предыдущей ячейке
available_dates = pd.to_datetime(df_dates["date"]).dt.strftime("%Y-%m-%d").tolist()
print("Найдено дат с погодой:", len(available_dates))
print("Первые 10:", available_dates[:10])

for prediction_date in available_dates:
    print(f"Обрабатываем {prediction_date} ...")

    df_weather = extract_weather_from_db(user_object_id, prediction_date)

    if df_weather is None or df_weather.empty:
        print(f"  ⚠ Нет данных погоды (после десериализации) для {prediction_date}")
        continue

    filename = f"weather_uid_{user_object_id}_{prediction_date}.csv"
    out_path = os.path.join(OUTPUT_DIR, filename)

    df_weather.to_csv(out_path, index=False, encoding="utf-8")
    print(f"  ✅ Успешно записано: {out_path}")

print("Готово!")


Найдено дат с погодой: 295
Первые 10: ['2025-01-28', '2025-01-29', '2025-01-30', '2025-01-31', '2025-02-01', '2025-02-02', '2025-02-03', '2025-02-04', '2025-02-05', '2025-02-06']
Обрабатываем 2025-01-28 ...
  ⚠ Нет данных погоды (после десериализации) для 2025-01-28
Обрабатываем 2025-01-29 ...
  ⚠ Нет данных погоды (после десериализации) для 2025-01-29
Обрабатываем 2025-01-30 ...
  ✅ Успешно записано: data\weather_uid_70_2025-01-30.csv
Обрабатываем 2025-01-31 ...
  ✅ Успешно записано: data\weather_uid_70_2025-01-31.csv
Обрабатываем 2025-02-01 ...
  ✅ Успешно записано: data\weather_uid_70_2025-02-01.csv
Обрабатываем 2025-02-02 ...
  ✅ Успешно записано: data\weather_uid_70_2025-02-02.csv
Обрабатываем 2025-02-03 ...
  ✅ Успешно записано: data\weather_uid_70_2025-02-03.csv
Обрабатываем 2025-02-04 ...
  ✅ Успешно записано: data\weather_uid_70_2025-02-04.csv
Обрабатываем 2025-02-05 ...
  ✅ Успешно записано: data\weather_uid_70_2025-02-05.csv
Обрабатываем 2025-02-06 ...
  ✅ Успешно записано: 